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展 一 一 这 些 车 辆 考虑 并 适应 驾 
a; 
驾驶 员 一 车 辆 界面 考虑 
了 驾驶 员 的 驾驶 任务 和 认 知 工 
iF: 
车 载 数据 库 开 发 和 分 享 
的 最 好 应 用 ; 
用 于 和 鲁 棒 驾驶 员 监 视 和 
驾驶 员 识 别 的 多 传感器 分 析 和 
融合 技术 的 相关 信息 ; 
车 辆 之 间 以 及 车 辆 与 基 
础 建设 之 间 通 信 的 知识 分 享 。 
本 书 适用 于 在 控制 工程 、 
信号 处 理 、 音 频 一 视频 处 理 、 
人 机 界面 、 人 的 因素 和 运输 工 
程 等 领域 工作 的 工程 技术 人 
、 学 生 、 汽 车 制造 商 、 政 府 
础 管理 人 员 和 工程 师 参 考 阅 





国际 信息 工程 先进 技术 译 从 


车 载 系 统 和 安全 的 
数字 信号 处 理 


(美国 ) John H. L. Hansen 
(土耳其 ) Pinar Boyraz 
(HAS) Kazuya Takeda Riz 

(美国 ) Hiiseyin Abut 
王 青春 Mmm ^e 














C 


JL X OI x E Ro 


本 书 是 上 


Tà 





频 与 音频 处 理 





本 





























昌 发 表 于 第 四 届 两 年 一 度 的 车 载 系统 和 安全 的 数字 信和 号 处 理 (DSP) 研讨 会 
的 论文 编辑 而 成 ， 这 些 论 文 的 作者 均 为 世界 级 专家 ， 他 们 的 研究 领域 主要 是 将 人 的 因素 
集成 到 和 车载 系统 上 来 增强 汽车 的 安全 性 。 本 书 为 减少 驾驶 员 4 分 心 以 及 防止 道路 事故 提供 
新 的 方法 ， 主 要 介绍 了 将 DSP 技术 应 用 到 自 适应 汽车 、 车 载 对 话 系统 、 人 机 界面 、 
以 及 车 载 语音 系统 等 方面 。 












































主要 包括 以 下 内 容 : 
驶 员 一 车 辆 界面 考虑 了 驾驶 员 的 驾 
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间 以 及 车 辆 与 基 
本 书 适用 于 在 控 
工程 等 领域 工作 的 工程 技术 人 员 、 








于 鲁 棒 驾驶 员 监 视 和 驾驶 员 识 另 


智能 汽车 的 最 新 进 
























































展 一 一 这 些 车 辆 考虑 并 适应 各 驶 员 ; 驾 
9 驶 任务 和 认 知 工作 ;车载 数据 库 开 发 和 分 享 的 最 好 
































Translation from English language edition: 


Digital Signal Processing for In- Vehicle Systems and Safety. 

by John H. L. Hansen, Pinar Boyraz, Kazuya Takeda and Hüseyin Abut. 
Copyright © 2012, Springer New York. 

Springer New York is a part of Springer Science + Business Media. 

All Rights Reserved. 


本 





本 和 





B 
版权 登 








FP 文 简体 字 版 日 


H Springer 授权 机 械 工 业 出 版 社 独家 出 版 。 版 权 所 有 ， 侵 权 必 究 。 





对 记号 : 图 字 : 01-2012-7574 号 


图 书 在 版 编目 (CIP) 数据 


车 载 系统 和 安全 的 数字 信号 
对 .一 北京 : 机械 工业 出 版 社 ，2013.7 
(国际 信息 工程 


译 











E 进 技术 译 从 ) 
书 名 原文 : Digital signal processing for in-vehicle systems and safety 





ISBN 978-7-111-43167-1 



































2013 4E 8 月 第 1 版 第 1 次 日 























p 刷 


处 理 /( 美 ) WA (Hansen, J. H. L.) 等 编著 ; J 














LD- I.DA- E- I. @ 汽 车 -计算 机 网 络 - 数字 信和 号 处 理 
IV. DU463. 67 

中 国 版 本 图 书馆 CIP 数据 核 字 (2013) 第 145986 号 

机 械 工 业 出 版 社 (北京 市 百 万 庄 大 街 22 号 ”邮政 编码 100037) 

策划 编辑 : 顾 WE 责任 编辑 : BD WE 

版 式 设 计 : 霍 永明 ”责任 校对 : 纪 AHL 

封面 设计 : aR TEEN: 杨 dA 

北京 云 浩 印刷 有 限 责 任 公司 印刷 


169mm x 239mm + 18.25 印张 . 372 FF 
0001— 3000 Ht 
标准 书号 : ISBN 978-7-111-43167-1 





定价 .79.90 元 





JU, 4 
电话 服务 





社 服务 中 心 :(010)88361066 


销 f 
销 f 





Imp Im 





部 : (010) 68326294 
二 部 : (010)88379649 


读者 购书 热线 :(010)88379203 





IV deut. 、 倒 页 、 脱 页 ， 由 本 社 发 行 部 调换 


网 络 服务 

ZU IN] : http://www. cmpedu. com 

FL TEE IS ; http://www. empbook. com 
机 工 官 博 :http://weibo. com/cmp1952 
封面 无 防伪 标 均 为 盗版 














上 的 多 传感器 分 析 和 融合 技术 的 相关 信息 ; 车 辆 
而 设施 之 间 通 信 的 知识 分 享 。 
制 工程 、 信号 处 理 、 音 频 和 视频 处 理 、 人 机 界面 、 人 的 因素 和 运输 


学 生 、 汽 车 制造 商 、 政 府 基础 管理 人 员 和 工程 师 。 





译 者 m 


随 着 汽车 工业 的 发 展 以 及 电子 设备 的 广泛 应 用 ， 鸭 驶 员 在 驾驶 过 程 中 经 常会 出 
现 各 种 分 心 的 现象 。 如 果 分 心 的 时 间 过 长 ， 次 数 过 多 ， 那 么 将 引起 交通 事故 ， 危 及 
驾驶 员 、 乘 客 和 其 他 路 面 交通 参与 者 的 人 身 安 全 。 为 识别 驾驶 员 的 分 心 ， 需 要 对 鸭 
驶 员 的 状态 进行 识别 ， 这 些 识别 要 基于 驾驶 员 的 语音 、 情 绪 和 状态 等 多 个 方面 ， 同 
时 驾驶 辅助 系统 的 设置 如 何 考 虑 驾驶 员 并 适应 驾驶 员 来 增加 汽车 的 安全 性 等 。 上 述 
这 些 内 容 都 与 汽车 安全 相关 ， 需 要 对 车 载 系统 进行 大 量 的 研究 工作 ， 涉 及 控制 工 
程 、 信 号 处 理 、 音 频 和 视频 处 理 、 人 机 界面 和 运输 工程 等 领域 多 个 领域 。 

为 此 ， 在 美国 德 克 萨 斯 州 达拉斯 举办 的 第 四 届 研 讨 会 ， 讨 论 了 车 载 系统 和 安全 
的 数字 信号 处 理 问 题 。 本 书 对 研讨 会 期 间 所 发 表 的 论文 进行 了 编辑 ， 从 而 能 够 帮助 
该 领域 的 研究 人 员 ， 共 同 探讨 车 辆 内 的 数字 信号 处 理 技术 的 发 展 ， 来 减少 驾驶 员 的 
分 心 ， 来 提高 汽车 行驶 安全 性 。 

本 书 由 北京 林业 大 学 车 辆 工程 系 王 青 春 博士 组 织 翻 译 ， 攀 月 珍 博士 、 唐 亮 博 
士 、 陈 来 荣 博士 和 王 典 博士 参与 了 翻译 ， 另 外 陈 福 军 、 乔 洪 海 、 王 玉 侈 、 威 超 、 部 
m WHA, KE, KAR, LERSAAM AKI AP MEME HL, HA 
中 涉及 的 领域 较 多 ， 各 种 专业 术语 众多 ， 限 于 译 者 的 水 平 ， 书 中 仍然 可 能 存在 芷 忽 
与 错误 之 处 ， 尽 请 读者 批评 指正 。 
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届 车 载 系统 和 安全 DSP (数字 信号 处 理 ) 研讨 会 在 美国 德 
[市 举办 。 本 次 研讨 会 由 CRSS (Center for Robust Speech Systems) 
来 自 UT-Dallas (德州 大 学 达拉斯 分 校 ) 的 Speech/Speaker Model- 
In- Vehicle 专业 团队 。 本 次 会 议 是 在 2003 E (8 E, HA). 











2005 年 (X qm, WAT) 和 2007 年 (伊斯坦布尔 ， 土 耳 其 ) 之 后 ， 第 四 次 举 


办 的 研讨 会 。 来 自 车 辆 内 部 信号 处 到 


安全 研究 前 沿 、 
这 次 在 UT- 




















不 同 领域 的 世界 级 专家 ， 一 起 参与 探讨 了 道路 


车 辆 内 部 技术 以 及 最 先进 的 系统 展示 等 问题 。 
Dallas 举办 的 研讨 会 ， 由 于 得 到 了 不 同 领域 的 帮助 ， 在 一 定 范围 上 








拓宽 了 研究 内 容 ， 如 信号 处 理 、 多 模式 音频 和 视频 处 理 、 控 制 工程 、 生 物力 学 、 人 


为 因素 以 及 在 交通 运输 工程 方面 进行 成 果 讨 论 和 信息 交流 等 。 重 点 研究 领域 如 下 : 
e 基于 DSP 技术 的 自 适 应 汽车 ; 
e 驾驶 员 状 态 监测 以 及 分 心 或 压力 检测 ; 
e 车 载 对 话 系统 和 人 机 对 话 接口 ; 
e 车 载 产品 中 视频 与 音频 处 理 遇 到 的 难题 ; 

D 的 多 传感器 融合 以 及 可 靠 的 驾驶 员 监 测 ; 

e 车 辆 之 间 、 车 辆 与 基础 设备 之 间 的 无 线 通 信 技 术 ; 

















e 驾驶 员 I 





e 在 提高 安全 性 方面 8 





























e 交通 运输 工程 场地 。 


本 次 研讨 会 包括 三 个 主题 演讲 ， 演 讲 者 均 是 国际 公认 的 权威 人 士 。 美 国 华盛顿 
特区 ， 美 国 国家 运输 安全 委员 会 (NTSB) 公路 安全 办 公 室 主任 Bruce Magladry， 做 
了 开幕 式 主题 演讲 ， 题 为 “公路 安全 ， 我 们 在 哪里 ， 我 们 将 要 去 何方 ”。 来 自 美国 























弗吉尼亚 州 布 莱 
二 个 主题 演讲 ， 
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入 人 为 因素 与 认 知 科学 ; 

















克 斯 堡 VTTI (弗吉尼亚 理工 大 学 交通 学 院 ) 的 Jon Hankey 做 了 第 








题 为 “提高 运输 安全 





自然 行驶 状态 下 驾驶 行为 数据 的 作用 ”。 





VTTI 因 其 著名 的 对 100 辆 汽车 做 自然 行驶 状态 下 驾驶 行为 方面 的 研究 ， 而 在 这 个 
领域 一 直 处 于 领先 地 位 。 已 经 对 1500 辆 汽车 连续 记录 两 年 的 美国 国家 运输 局 





SHRP2 计划 ， 也 将 这 项 工作 记录 在 案 。 


























第 三 个 主题 演讲 者 是 德国 SVOX fuxk d d 


塔 特大 学 的 Gerhard Schmidt， 中 心 是 “改善 汽车 语音 通信 系统 的 最 新 趋势 ”。 会 议 


还 组 织 了 一 次 小 














组 讨论 会 ， 人 员 包 括 : 美国 














家 运输 安全 委员 会 的 Bruce Magladry、 


美国 弗吉尼亚 理工 大 学 交通 学 院 的 Jon Hankey、 德 国 SVOX 和 达 姆 施 塔 特大 学 的 
Gerhard Schmidt, 、 韩 国 高 丽 大 学 的 Hanseok Ko 以 及 日 本 名 十 屋 大 学 的 Kazuya Take- 
da。 会 议 为 参加 者 讨论 汽车 系统 与 安全 的 未 来 发 展 提供 了 机 会 。 在 这 次 研讨 会 上 ， 
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21 篇 论文 以 及 从 下 一 次 研讨 会 上 选 出 的 具有 突出 贡献 的 一 篇 论文 共同 收录 在 这 本 
书 里 。 这 些 论文 共 分 为 4 个 部 分 ， 每 个 部 分 均 用 于 解决 重要 领域 的 车 载 数字 信和 号 处 
理 ， 这 4 个 部 分 如 下 : 

ABD: 驾驶 行为 与 建 模 系 统 ，; 

B 部 分 : 车 载 交 互 系统 /语音 系统 ; 

C 部 分 : 车 辆 的 动力 学 、 视 觉 、 主 动 安 全 和 资料 库 ; 

D 部 分 : 交通 运输 、 车 辆 通信 和 下 一 代 汽 车 系统 。 

首先 ，A 部 分 包括 4 章 ， 主 要 研究 驾驶 员 的 驾驶 行为 和 建 模 。 第 1 章 讨 论 了 多 
种 模式 信号 处 理 ， 主 要 依据 语音 、 视 频 和 CAN 总 线 信 号 来 进行 车 辆 在 市 区 行驶 时 
的 可 靠 应 力 检 测 ， 包 括 多 任务 处 理 、 语 音 系统 的 对 话 以 及 中 等 水 平 的 识别 能 力 。 第 
2 章 讨 论 了 通过 分 类 的 方法 来 评估 轰 驶 员 的 情绪 ， 这 种 方法 将 语音 分 成 愤怒 、 悲 伤 
和 幸福 三 种 情绪 。 第 3 章 主要 针对 驾驶 员 的 操作 行为 信号 ， 其 来 源 于 控制 单元 ， 如 
气动 或 制 动 踏板 的 使 用 、 方 向 盘 等 ， 信 号 因 驾 驶 状况 不 同 而 改变 。 第 4 章 讨论 通过 
驾驶 行为 观测 数据 来 分 类 的 一 个 分 层 模 式 ， 该 数据 基于 多 个 抽象 层次 ， 并 应 用 于 高 
速 公 路 上 驾驶 员 的 操作 行为 。 

B 部 分 包括 以 下 9 章 ， 侧 重 于 车 载 互 动 系统 。 第 5 章 讨论 了 车 载 通信 系统 的 发 
展 。 第 6 章 讨论 了 车 内 宽带 免 提 互动 。 第 7 章 和 第 8 章 分 别 讨论 了 车 内 启动 语音 对 
话 的 新 方式 和 动态 环境 下 对 话 系 统 的 识别 能 力 。 第 9 章 讨论 了 资料 库 的 发 展 对 语音 
和 汽车 噪声 的 影响 ， 以 及 语音 和 汽车 噪声 对 汽车 人 机 交互 技术 进步 的 影响 。 接 下 来 
的 第 10 章 和 第 11 章 讨论 了 车 内 环境 下 语音 识别 的 改进 方案 ， 以 减少 驾驶 员 分 心 所 
需 面 临 的 一 个 必要 的 挑战 。 最 后 第 12 13 两 章 重点 讨论 了 车 内 环境 下 语音 技术 的 
提高 。 

C 部 分 包括 7 章 ， 主 要 研究 汽车 的 动态 、 视 觉 、 主 动 安全 性 和 资料 库 。 第 14 
章 设计 了 先进 的 方法 来 形成 交通 路 口 的 参考 标准 ， 第 15 章 讨论 了 对 环境 反应 灵敏 
的 主动 安全 性 和 辅助 驾驶 的 计算 机 视觉 系统 。 第 16 章 研 究 了 一 个 新 兴 的 领域 ， 这 
一 领域 将 行人 检测 与 立体 相机 的 深度 定位 相 结 合 。 第 17 章 中 讨论 的 另 一 个 安全 领 
域 是 驾驶 员 基 于 自己 感知 而 做 出 超车 判断 从 而 改善 辅助 驾驶 。 第 18 章 中 讨论 了 使 
用 多 媒体 视频 或 面部 信息 ， 对 驾驶 员 的 情绪 做 出 判断 。 第 19 章 着 眼 于 利用 概率 方 
法 对 变 道 轨迹 进行 建 模 。 第 20 章 讨论 了 主动 安全 改善 的 另 一 种 方案 ， 及 采用 基于 
随机 模型 的 CAN 总 线 的 信号 进行 分 析 。 

本 书 的 最 后 是 D 部 分 ， 主 要 研究 交通 、 车 载 通信 以 及 新 一 代 的 汽车 系统 。 许 
多 国家 的 公路 基础 设施 不 断 扩 大 ， 而 且 变 得 智能 ， 汽 车 之 间 以 及 汽车 与 基础 设备 之 
间 的 通信 也 在 发 展 。 第 21 章 讨论 了 汽车 之 间 多 媒体 流传 输 数据 的 通信 网 络 ， 最 后 
一 章 对 新 一 代 的 智能 交通 基础 设施 提出 了 一 些 独 特 的 观点 。Matisse 是 一 个 用 于 模 
拟 交通 安全 状况 的 大 型 多 功能 系统 。 

作为 编著 者 ， 我 们 希望 本 书 能 够 提供 一 个 最 新 的 车 辆 信号 处 理 方法 ， 并 将 最 新 






































































































































VI 车 载 系统 和 安全 的 数字 信号 处 理 





的 方法 提供 给 研究 人 员 ， 将 一 套 完整 的 技术 参考 提供 给 该 领域 的 工程 师 和 科学 家 。 
在 此 ， 我 们 感谢 2009 年 所 有 参加 研讨 会 的 人 员 ， 感 谢 来 自 各 方面 的 支持 ， 特 别 是 
日 本 的 新 能 源 产业 技术 开发 机 构 (The New Energy and Industrial Technology Develop- 
ment Organization ，NEDO) ， 美 国 、 土 耳 其 、 日 本 等 国家 的 基金 会 ， 以 及 认识 到 车 
载 系统 和 安全 研究 提升 重要 性 并 参与 研究 的 人 员 。 本 书 编 著 考 非常 高 兴 认 识 并 真诚 
地 感谢 美国 德州 大 学 达拉斯 分 校 的 Rosarita Lubag 女士 ， 她 担任 了 本 书 出 版 的 协调 
工作 ， 并 参与 了 布局 和 校对 ， 以 确保 每 一 章 的 质量 。 正 是 因为 她 的 不 懈 努 力 才 完 成 
了 本 书 最 终 版 本 ， 本 书 也 反映 了 第 四 次 研讨 会 的 作者 和 他 们 报告 的 质量 。 我 们 感谢 
Springer 出 版 社 顺利 地 出 版 了 这 本 书 ， 具 体 地 说 ， 我 们 要 感谢 施 普 林 格 出 版 社 Alex 
Greene 先生 和 Allison Michael 女士 ， 因 为 他 们 不 懈 地 努力 ， 为 本 书 丰 富 了 结构 和 内 
容 ， 并 为 我 们 团体 提供 了 一 个 高 质量 的 学 术 性 平台 ， 以 提高 公众 意识 、 促 进 该 领域 
的 科学 研究 和 科学 技术 的 发 展 。 
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汽车 已 经 存在 了 100 年 以 上 ， 并 且 在 过 去 的 30 年 里 得 到 了 快速 发 展 。 早 期 的 
汽车 设计 是 为 了 将 驾驶 员 和 乘客 从 A 点 运送 到 B 点 。 在 当今 的 汽车 市 场 中 ， 汽 车 
的 性 能 、 和 舒适 性 、 外 形 和 安全 性 都 是 其 核心 。 由 于 车 内 传感器 技术 的 快速 发 展 ， 以 
及 在 汽车 行驶 更 安全 、 燃 油 更 高 效 的 推动 下 ， 车 辆 内 部 的 数字 信号 处 理 水 平 仍然 在 
显著 提高 。 近 年 来 ， 由 于 人 工 智 能 和 计算 机 设计 技术 被 引入 到 车 辆 中 来 ， 也 出 现 了 
“智能 汽车 ”的 概念 。 在 美国 ， 美 国 国防 部 高 级 研究 计划 局 挑战 赛 ' 于 2004 年 开 
始 开发 无 人 驾驶 汽车 ， 这 就 意味 着 一 种 努力 。 这 些 车 辆 将 完全 自动 化 、GPS 导航 、 
多 传感器 融合 以 及 先进 的 决策 指导 和 反馈 控制 /人 工 智 能 导航 ， 并 能 够 自主 行驶 很 
长 的 一 段 距离 ( 即 10 ~ 150mileS ) 。 至 目前 为 止 ， 来 自 36 个 美国 州 政府 和 4 个 国 
家 的 超过 195 支队 伍 报名 参赛 。 尽 
管 实现 将 先进 的 智能 系统 集成 到 汽 
车 上 是 一 个 令 人 钦佩 的 目标 ， 但 很 
显然 ， 大 多 数 拥 有 私家 车 的 人 仍然 
喜欢 自由 驾驶 ， 且 很 可 能 不 愿意 失 
去 自我 控制 汽车 的 能 力 。 因 此 , 在 
汽车 领域 内 ， 如 何 将 新 技术 引入 到 
汽车 行业 仍然 是 一 项 很 重大 的 挑 
战 。 研 讨 会 如 图 0. 1 所 示 。 

随 着 城市 人 口 数量 的 增加 ， 
人 们 工作 往返 时 间 变 长 ， 在 汽车 
上 花费 更 多 的 时 间 ， 同 时 驾驶 员 
正在 试图 在 车 内 完成 更 多 的 工作 ， 
而 不 仅仅 是 驾驶 汽车 。 无 线 技术 、 
数字 音频 /音乐 播放 器 、 手 机 上 
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问 、 先 进 的 娱乐 / 乡 媒体 系统 以 EN SC EM «m ^ o 
智能 导航 技术 都 已 引入 到 汽车 内 ， ER CS gem 


刺激 了 驾驶 者 内 心 对 汽车 功能 需 
求 的 增长 。 然 而 ， 大 多 数 国家 的 10.1 研讨 会 

















© Imile =1609. 344m。 一 一 译 者 注 





VII 车 载 系统 和 安全 的 数字 信号 处 理 





汽车 驾驶 考试 继续 仅仅 专注 于 运营 车 辆 本 号， 而 并 没有 考虑 将 外 部 的 管理 技术 作为 
驾驶 者 获 取 驾 驶 许可 证 的 评估 条 件 。 因 此 ， 美 国 吕 和 许多 其 他 国家 :已 经 通过 了 
一 条 法 律 ， 该 法 律 规 定 驾 驶 员 在 驾驶 汽车 时 ， 禁 止 使 用 手机 打 电 话 和 发 送信 息 。 最 
近 一 本 书 一 一 《Traffic: why We Drive The Way We Do) (交通 : 我 们 为 什么 这 样 开 
7k)! (Tom Vanderbilt 编写 ) 从 多 个 角度 对 社会 、 文 化 和 政府 对 驾驶 以 及 驾驶 者 
的 影响 进行 了 阐述 。 驾 台 员 在 汽车 行驶 时 ， 其 注意 力 和 常常 被 分 散 ， 这 已 经 被 大 量 的 
研究 所 证 实 。 一 般 驾 驶 员 在 开车 时 每 小 时 调整 他 们 的 无 线 电 7.4 次 ， 每 小 时 将 目光 投 
1552 )L 8. 1 次 ,每 小 时 有 10. 8 次 在 寻找 东西 (如 太阳 镜 、 硬 币 等 ) (第 78 页 ， 参 考 
文献 [4]). 523b 51 — ACRE 3. 4s 目光 偏离 道路 0. 06 次 。 像 iPod 这 种 带 有 绚丽 外 沈 的 
移动 设备 ， 需 要 集中 更 多 的 注意 力 来 搜索 歌曲 、 暂 停 或 跳 过 一 首 歌曲 。 尽 管 有 一 些 人 
持 有 不 同 的 意见 ， 但 研究 人 员 指 出 ,任何 事情 使 驾驶 员 转 移 他 /她 的 注意 力 远离 道路 
(通常 为 视觉 上 的 ) 超过 1.5s (一 些 人 认为 这 是 3.0s) ， 都 会 被 认为 是 分 散 注意 力 。 

暂且 不 考虑 确切 的 时 间 阔 值 ， 这 样 的 指导 原则 作为 一 般 规 则 是 非常 重要 的 ， 但 
应 该 明确 的 是 ， 并 不 是 所 有 的 驾驶 员 驾 驶 汽车 都 同样 熟练 ， 甚 至 技术 一 流 或 者 经 验 
丰富 的 驾驶 员 也 会 经 历 一 定 的 疲劳 期 ， 或 者 会 对 一 辆 新 车 不 熟悉 。 即 使 这 些 只 发 生 
在 很 短 的 时 间 内 ， 这 一 点 也 会 影响 他 们 的 驾驶 能 力 ， 从 而 影响 行车 安全 。 

绝 大 多 数 以 驾驶 员 为 对 象 的 机 动车 研究 基于 : 中 仿真 研究 ; 思 现 场 试验 研究 ; 
@B 自 然 行驶 状态 下 轰 驶 行为 的 研究 。 仿 真 分 析 可 以 模拟 研究 处 于 高 危 条 件 下 的 试验 
对 象 ， 而 并 未 将 实验 对 象 置 于 高 危 条 件 下 ， 但 仿真 分 析 不 可 能 完全 反映 驾驶 员 在 这 
种 状况 下 如 何 做 出 反应 。 现 场 试验 研究 主要 针对 装备 有 传 感 右 技术 的 车 辆 ， 该 车 和 有 
够 自行 记录 汽车 在 道路 上 的 行驶 数据 。 然 而 ， 驾 驶 者 清楚 地 知道 ， 他 们 对 该 车 性 
也 许 并 不 熟悉 ， 其 仅仅 是 一 个 数据 记录 平台 (也 就 是 说 ， 相 对 于 自己 的 汽车 ， 友 
驶 者 对 测试 车 辆 的 驾驶 方式 会 有 些 不 同 ) 。 自 然 行 驶 状态 下 的 四 驶 行为 代表 了 下 一 
个 主要 的 研究 领域 ， 数 据 采集 技术 小 型 化 使 得 记录 平台 无 颖 地 舱 入 到 车辆 内 ， 因 此 
自然 行驶 状态 下 的 四 驶 行为 成 为 了 日 常 雪 驶 持续 观察 车 辆 的 窗口 。 美 国 交通 运输 研 
究 委员 会 (TRB) 正在 实施 SHRP2) (美国 公路 战略 研究 计划 二 期 ) 计划 ， 该 计 
划 将 连续 两 年 从 1500 辆 机 劲 车 上 采集 驾驶 者 的 信息 。 新 的 数字 信和 号 处 理 技术 在 未 
来 内 置 安全 监测 方面 的 进步 ， 很 显然 将 得 益 于 该 资料 库 。 

2009 年 ， 第 四 届 人 研讨 会 在 德 克 院 斯 州 达拉斯 举办 ， 这 次 研讨 会 主要 关注 车 载 
系统 和 安全 方面 。 本 次 会 议 有 助 于 不 同 领域 的 研究 人 员 ， 共 同 探讨 车 辆 内 的 数字 信 
号 处 理 技术 的 发 展 ， 以 提高 汽车 行驶 安全 性 ， 并 可 能 有 助 于 减少 驾驶 员 分 心 。 总 共 
有 34 位 会 议论 文 的 评审 专家 以 及 大 学 、 汽 车 技术 公司 、 政 府 研 究 实验 室 的 研究 人 
员 参 与 了 本 次 会 议 。 人 研讨 会 上 进行 了 3 个 主题 演讲 ,演讲 者 均 是 来 自 该 领域 的 国际 
公认 的 权威 人 士 ， 人 员 如 下 ( 见 图 0.2): 

* Bruce Magladry: 来 自 美国 国家 运输 安全 委员 会 (NTSB); 

* Jon Hankey: 来 自 美国 弗吉尼亚 理工 大 学 交通 学 院 (VTTI) ; 
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* Gerhard Schmidt; 来 自 德国 SVOX 和 达 姆 施 塔 特大 学 。 

在 现代 交通 运输 网 络 中 ， 随 着 先 
进 的 车 载 系统 、 智 能 汽车 技术 以 及 智 
能 交通 系统 的 研究 不 断 深入 ， 必须 考 
EZ ERRE, XTE H a tr AIA A E, 
驾驶 员 的 背景 言 息 以 及 驾驶 车 辆 时 可 
能 遇 到 的 问题 。 第 四 届 研 讨 会 主要 讨 
论 关 于 和 车载 系统 和 安全 的 DSP (数字 
言 号 处 理 ) 技术 ， 会 议 的 举办 者 以 及 
编写 本 书 的 作者 ， 为 增加 驾驶 员 经 验 
和 提高 驾驶 安全 性 ， 做 了 大 量 的 贡献 。 图 0.2 演讲 者 

寻找 提高 车 载 系统 安全 的 方法 很 
艰难 ， 需 要 各 个 研究 领域 的 专家 共同 努力 。 由 于 人 为 因素 、 控 制 系统 、 信 和 号 处 理 、 
交通 运输 工程 、 人 工 智 能 、 机 器 改进 、 电 信 / 移 劲 通信 技术 和 汽车 设计 等 领域 技术 
的 显著 进步 ， 最 终 将 产生 新 一 代 汽 车 ， 除 了 仍然 完成 将 驾驶 员 和 乘客 从 A 地 转移 
到 B 地 外 ， 还 能 够 有 助 于 更 安全 地 和 驾驶， 以 及 更 高 效 地 运输 。 

第 四 届 关 于 DP 车 载 系 统 与 安全 的 研讨 会 ， 在 Fort Worth Rodeo. ( 沃 斯 保罗 德 
奥 ) 闭幕 ， 如 图 0.3 所 示 。 
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[1] http://en.wikipedia.org/wiki/DARPA_Grand_Challenge 

[2] http://www. iihs.org/laws/cellphonelaws.aspx 

[3] http://www.cellular-news.com/car_bans/ 

[4] T. Vanderbilt, “Traffic: Why we drive the way we do,” A.A. Knopf, 2008. 
[5] http://www.trb.org/StrategicHighwayResearchProgram2SHRP2/ 
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A 部 分 


访 驶 行为 与 建 模 系 统 


第 工 章 “ 多 模式 驾驶 员 压 力 检测 
Hynek Botil, Pinar Boyraz 和 John H. L. Hansen 


摘要 : 非 驾 驶 相关 的 认 知 负荷 和 情绪 状态 的 变化 可 能 影响 驾驶 员 控 制 车 辆 的 能 
力 ， 引 起 驾驶 错误 。 驾 驶 员 压 力 的 检测 情况 将 有 利于 主动 安全 系统 及 其 他 智能 车 载 
接口 的 设计 。 在 本 章 中 ,我 们 针对 在 市 区 行驶 情况 下 的 多 模式 驾驶 压力 (POS) 
检测 提出 了 初步 措施 ， 包 括 多 任务 处 理 、 对 话 系 统 的 交流 和 中 等 水 平 的 认 知 任务 。 
我 们 的 目标 是 获得 一 个 采用 驾驶 员 的 语音 和 CAN 总 线 信号 的 连续 操作 模式 检测 ， 
直接 应 用 于 可 以 适应 驾驶 员 实 际 状态 的 智能 人 车 接口 中 。 首 先 ， 分 析 了 不 同 驾 驶 场 
景 对 语音 产生 特征 的 影响 ， 然 后 设计 一 个 基于 语音 的 压力 检测 器 。 在 驾驶 员 / 机 动 无 
关 的 开放 测试 任务 中 ， 系 统 对 中 性 /压力 分 类 的 准确 率 达 到 88.2% 。 然 后 ， 利 用 CAN 
总 线 信 号 的 分 心 检 测 在 一 个 驾驶 员 / 机 动 相 关 的 封闭 测试 设 定 任务 中 评估 ， 在 车 道 保 
持 阶 段 和 曲线 通过 阶段 ， 分 心 检 测 准 确 率 分 别 达 到 98% 和 84%。 自 主 分 类 器 的 性 能 
表明 ， 语 音 和 CAN 总线 信号 领域 的 融合 将 产生 一 个 整体 鲁 棒 的 压力 评估 框架 。 

关键 词 : 主动 安全 ; CAN 总 线 信号 处 理 ; 分 心 检 测 ; 压力 


1.1 简介 


电子 产业 的 进步 使 得 获取 信息 和 娱乐 比 以 往 任何 时 候 都 容易 。 虽 然 电子 产品 的 
存在 无 疑 有 利于 我 们 生活 的 许多 方面 ， 但 是 这 种 情况 也 有 可 能 造成 不 利 的 影响 。 在 
目前 的 研究 中 ， 美 国 弗吉尼亚 州 科 技 运输 协会 (VTTI) 报告 说 ， 驾 驶 期 间 通 过 手 
持 设备 拨号 使 事故 风险 增加 3 倍 ， 而 通过 免 提 设备 通信 风险 增加 了 1/3。 这 表明 在 
驾驶 过 程 中 进行 二 次 认 知 任务 可 能 严重 影响 轨 驶 表现 。 除 了 认 知 负荷， 驾驶 员 的 情 
绪 也 被 证 明 对 驾驶 表现 有 很 大 影响 ， 例 如 ， 表 现 为 较 大 的 车 道 偏 移 和 方向 盘 角 度 偶 
差 ， 在 愤怒 和 激动 情况 下 在 较 短 时 间 内 通过 车 道 一 一 这 些 都 是 车 道 控制 能 力 下 降 的 
迹象 。 使 用 一 个 评估 驾驶 员 奈 力 的 自动 化 系统 会 有 益 于 主动 安全 系统 和 其 他 智能 车 
载 接口 的 设计 ， 使 它们 能 够 适应 驾驶 员 的 当前 状态 〈 例 如， 当 检 测 到 高 认 知 负载 
的 情况 时 ， 降 低 导 航 提示 的 频率 ) 。 

大 量 的 研究 已 经 对 情绪 "和 压力 (包括 认 知 负荷 ) 给 语音 参数 “1 的 影响 进 
行 了 分 析 。 然 而 ,， 有限 的 注意 力 相 对 地 都 花费 在 情绪 、 压 力 或 者 汽车 驾驶 员 对 话 导 
致 的 分 心 "" 册 的 影响 上 。 在 参考 文献 [10] 里 面 ， 从 驾驶 模拟 器 项 目的 讲话 被 分 
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为 7 种 情绪 状态 ,使 用 的 是 一 个 专业 演员 的 情绪 语言 库 训 练 的 分 类 。 驾 驶 员 的 情绪 
状态 在 与 对 话 系统 交流 的 过 程 中 被 触发 。 此 外 ，jJones 和 Jonsson "采用 在 驾驶 模 
拟 需 中 收集 的 语言 数据 ， 并 将 它们 分 为 4 个 压力 等 级 。 不 同 压力 水 平 的 划分 是 通过 
要 求 驾 驶 员 保 持 一 定 的 速度 (60mile/h 或 120mile/h) ， 并 解决 电话 上 的 一 个 合成 
器 在 较 慢 和 较 快 速度 下 提出 的 简单 数学 任务 来 实现 的 。 在 鸭 驶 员 独 立 任务 中 得 到 的 
分 类 性 能 相对 较 低 (2329 5196) 。 我 们 注意 到 ， 这 两 项 研究 利用 模拟 驾驶 场景 ， 并 
且 在 参考 文献 [10] 的 情况 下 还 采用 演员 的 情绪 来 建立 分 类 类 别 。 表 演化 的 情绪 
带 有 夸张 的 特征 ， 它 能 有 效 地 使 听众 明确 说 话 考 个 人 的 状态 ， 但 不 是 自然 情绪 的 准 
确 人 代表。 使 用 驾驶 模拟 器 与 实际 的 驾驶 情况 也 有 区 别 ， 因 为 在 主要 任务 中 犯错 误 后 
果 很 小 或 者 没有 。 此 外 ， 只 利用 语音 方法 的 一 个 显著 缺点 是 情绪 或 压力 评估 只 能 在 
驾驶 员 从 事 对 话 的 时 间 段 进行 。 

为 了 解决 这 些 问 题 ， 目 前 的 研究 针对 在 真实 的 驾驶 条 件 中 收集 的 UTDrive Zt 
据 库 进 行 ， 并 且 在 压力 评估 中 同时 利用 语音 和 CAN 总 线 信号 。 在 这 里 ， 术 语 压 力 
代表 的 是 在 认 知 负荷 下 进行 的 驾驶 员 语 言 产物 或 驾驶 行为 的 方式 。 在 本 章 中 ， 压 力 
和 分 心 两 个 术语 互 换 使 用 ， 其 中 主要 任务 指 的 是 芍 驶 。 

本 章 的 剩余 部 分 安排 如 下 : 

首先 ， 描 述 数据 采集 程序 和 UTDrive 资料 库 中 的 分 心 / 压 力 场景 。 

第 二 ， 分 析 在 三 个 认 知 场景 中 的 语言 产物 参数 ， 并 且 引 入 基于 语言 的 压力 
分 级 。 

第 三 ， 建 议和 评价 CAN 总 线 信 号 的 分 级 操作 。 























1.2 UTDrive 资料 库 、 数 据 子 集 和 转录 协议 


所 使 用 的 数据 收集 车 是 配置 了 以 下 传 感 需 的 丰田 RAV4 ( 见 图 1.1): 

© 两 个 CCD 摄像 机 ， 用 于 监视 驾驶 员 和 前 挡 风 玻璃 外 的 路 况 ; 

e 送 话 器 阵列 (5 个 送 话 器 ) ， 用 来 记录 驾驶 员 语 言 和 车 内 声音 环境 ，; 

e 一 个 近 距 离 送 话 器 ， 用 以 降低 噪声 含量 并 获得 驾驶 员 语 音 ; 

e 光学 距离 传 感 如 ， 用 来 获得 配置 车 辆 和 交通 运行 中 其 他 车 辆 之 间 的 正 问 
距离 ，; 

e GPS， 进 行 跟 踊 定位 ; 

e CAN 总 线 OBD 王 接 口 ， 用 以 收集 车 辆 动态 ， 车 辆 动态 包括 由 芍 驶 员 操 纵 的 
车 速 、 转 向 、 方 向 盘 角度 、 节 和 气门 〈 俗 称 油门 ) 和 制 动 ; 

。 油门 / 制 动 踏板 压力 传感器 ， 用 以 收集 关于 跟 车 和 制 动 行 为 下 压力 模式 的 
信息 。 

UTDrive 资料 库 包 括 来 自 上 述 传感器 通道 (13 个 独立 的 数据 流 : 两 个 视频 、6 
个 音频 、 一 个 CPS 、 一 个 光学 距离 、 一 个 CAN 总 线 、 两 个 在 加 速 / 制 动 踏板 的 压力 
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送 话 器 阵列 


加 速 / 制 动 踏板 
压力 传感器 CAN 总 线 OBD II 数据 采集 单元 


图 1.1 仪表 数据 收集 车 :; UTDrive 


传感器 ) 的 数据 。 资 料 库 在 性 别 (B 37 例 , 女 40 例 )、 年 龄 (18 ~ 65 岁 ) 和 不 
同 的 区 驶 经 验 水 平 〈 新 手 一 专家 ) 方面 都 很 平衡 。 为 了 检验 分 心 和 辅助 任务 对 这 
些 驾 驶 员 群 体 的 影响 ,使 用 了 一 个 接近 自然 驾驶 的 数据 收集 协议 。 

数据 收集 过 程 中 所 采取 的 路 线 在 图 1.2 PAH, Amp Richardson 的 住 
EX (AA) 和 商务 区 ( 右 图 ) 形成 了 一 个 辅路 、 服 务 区 和 主要 道路 的 混合 。 "i 
求 每 个 参与 研究 的 驾驶 员 ， 在 驾驶 测试 期 间 通 过 两 条 路 线 至 少 两 次 ， 来 获得 同一 
路 线 的 一 个 基本 版 本 和 分 散 注意 力 的 版 本 。 一 个 驾驶 测试 包括 表 1. 1 Pli ULT 
助 任务 的 混合 ， 且 发 生 在 如 图 1. 2 所 示 的 路 段 。 根 据 此 协议 ， 一 个 参与 者 完成 12 
次 数据 ， 有 6 次 是 某 天 某 条 路 线 的 基本 版 本 ， 其 他 的 部 分 拥有 几 个 分 心 条 件 。 每 个 
测试 之 间 至 少 隔离 两 周 ， 以 防止 驾驶 员 对 路 线 和 车 辆 过 分 熟悉 。 近 60% 的 资料 库 
中 的 数据 有 一 个 完整 的 驾驶 员 的 测试 档案 。 其 余部 分 包含 不 完整 的 测试 和 数据 部 
ay, 这 是 由 于 参与 者 的 不 配合 ， 而 不 是 数据 收集 或 几 个 传感器 的 故障 。 辅助 敬 驶 员 
FE 45 E Rp S CR p SARI far o 

在 这 项 研究 中 ， 手 机 对 话 部 分 包括 与 自动 化 门户 网 站 Tell- Me (信息 系统 ) 的 
互动 对 话 ， 并 且 美 国航 空 公司 (预定 系统 ) 利用 驾驶 员 的 对 话 和 CAN 总 线 信 号 进 
行使 用 和 分 析 。 手 机 通话 发 生 在 路 线 2， 其 中 包括 驾驶 员 在 手机 对 话 过 程 中 的 车 道 
保持 和 曲线 通过 任务 。 为 了 以 驾驶 事件 和 任务 时 间 表 分 段 数据 并 找到 重奏 部 分 ， 应 
ii 了 两 个 不 同 的 转录 协议 。 首 先 ， 在 使 用 音频 和 视频 的 情况 下 ， 进 行 一 个 任务 的 录 

， 有 13 个 标签 来 注释 在 驾驶 员 和 乘客 交谈 和 其 他 类 型 的 分 心 发 生地 方 的 数据 分 

。 第 二 个 被 称 为 “事件 转录 ”， 有 6 个 标签 来 表示 轰 驶 员 不 同 的 行动 。 开 发 彩色 
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图 1.2 数据 收集 : 根据 分 配 的 任务 进 


行 的 路 线 分 段 [住宅 














X (£B 








) 和 商务 区 ( 右 图 )] 


编码 的 驾驶 时 间 线 来 观察 对 齐 任务 和 事件 的 转录 ， 以 获得 更 多 对 于 数据 的 洞察 和 观 
察 任务 和 事件 之 间 的 重 释 部 分 。 在 参考 文献 [13] 中 对 于 转录 标签 和 驾驶 时 间 线 



































给 出 了 详细 的 解释 。 
表 1.1 UTDrive 数据 收集 协议 
辅助 任务 
部 分 
A B C 
路 线 1 | 1 车道 转换 一 般 任 务 (收音 机 、AC 等 )| ”标志 阅读 
2 ”手机 通话 手机 通话 对 话 
3 ”一 般 任务 标志 阅读 自发 动作 
4 ”对 话 自发 动作 手机 对 话 
路 线 2 | 1 标志 阅读 车 道 转换 一 般 任务 (收音 机 、AC 等 ) 
2 ”手机 通话 手机 通话 对 话 
3 ”一 般 任务 (收音 机 、AC 等 )| ”标志 阅读 车 道 转换 
4 ”自发 动作 对 话 标志 阅读 
会 期 路 线 任务 
1 1 JUS gh 
1 辅助 任务 A 
2 辅助 任务 A 
2 [US qd 
2 1 [uS gt 
1 仅 驾 驶 
2 辅助 任务 B 
2 辅助 任务 C 
3 2 辅助 任务 C 
1 辅助 任务 C 
2 仅 驾 驶 
2 [US db 
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应 该 指出 的 是 手机 的 对 话 包含 不 同类 型 的 分 心 : 手动 (拨号 和 控制 )、 认 知 
(互动 和 处 理 ) 和 听觉 ( 听 )。 因 此 ,含有 手机 对 话 的 路 段 可 以 被 认为 是 最 可 能 观 
察 分 心 和 注意 力 分 散 的 。 虽 然 在 车 上 手机 通过 蓝牙 设备 接口 旦 驾驶 员 的 手动 任务 被 
最 小 化 ， 但 开始 的 拨号 可 能 会 导致 短暂 的 分 心 。 


1.3 利用 语言 信号 进行 压力 检测 


本 节 重 点 介绍 来 自 鸭 驶 员 语 言 的 压力 评估 。 首 先 应 该 指出 ， 由 认 知 负 和 荷 造成 的 
驾驶 员 的 实际 压力 等 级 是 不 知道 的 。 为 了 在 语音 段 中 定义 压力 等 级 ， 我 们 使 用 了 一 
个 数据 的 原因 类 型 注释 ， 如 参考 文献 [10] 中 提出 的 。 在 这 里 我 们 假设 ， 驾 驶 员 
被 要 求 执行 的 一 个 特定 任务 可 能 引起 驾驶 员 的 语言 产物 侦 离 正常 ， 于 是 这 代表 一 种 
压力 条 件 。 

特别 是 ， 我 们 期 待 相对 于 驾驶 员 与 乘客 之 间 随 意 的 对 话 来 说 ， 自 动 化 呼叫 中 心 
Tell- Me 和 美国 航空 公司 (AA) 之 间 的 相互 作用 会 给 各 驶 员 一 个 较 大 的 认 知 负 谷 。 
这 种 预期 的 部 分 原因 是 自动 化 呼叫 中 心 对 吐字 清晰 的 高 要 求 ， 在 有 限 的 词汇 系统 中 
要 求 明确 陈述 ， 上 自动 语音 识别 失败 经 常 要 求 重 新 进行 查询 。 出 于 这 个 原因 ， 我 们 定 
义 与 乘客 的 对 话 为 中 性 语言 ， 与 Tel- Me 和 AA 对 话 为 压力 语言 。 值 得 注意 的 是 ， 
与 无 声 阶段 相 比 ， 甚 至 与 乘客 间 的 自发 交流 也 会 施加 给 驾驶 员 一 定 程度 的 认 知 负 
位， 另外 由 于 汽车 噪声 水 平 的 不 同 ， 驾 驶 员 很 可 能 呈现 隆 巴 德 效 应 。 

为 了 验证 语音 数据 的 “中 性 ”和 “压力 ”的 部 分 是 否 有 任何 可 测量 的 差异 ， 
以 及 我 们 关于 在 高 认 知 负荷 的 情况 下 存在 压力 的 假设 是 否 合 理 ， 我 们 首先 来 分 析 一 
下 语言 产物 参数 的 分 布 ， 并 根据 假设 的 压力 类 型 来 比较 它们 。 随 后 ， 我 们 训练 独立 
的 中 性 和 压力 类 型 的 高 斯 混合 模型 (GMMS) ， 用 最 大 似 然 分 类 法 评估 其 分 类 鉴别 
力 。 与 性 别 无 关 的 中 性 /压力 分 类 训练 和 测试 在 来 自 不 同 发 言 者 的 析 取 数据 集 基 础 
上 进行 ， 以 评估 分 类 系统 的 通用 性 能 。 


1.3.1 语言 产物 分 析 


用 15 个 驾驶 员 (7 位 女性 ，8 位 男性 ) 的 会 话 来 进行 语音 分 析 和 应 力 分 类 实验 。 
通过 近 距 离 送 话 器 通道 的 检查 ， 发 现 一 个 强大 的 “ 电 ” 噪 声 的 存在 ， 完 全 掩盖 了 萄 
驶 员 的 讲话 。 出 于 这 个 原因 ， 送 话 器 阵列 中 的 一 个 中 间 送 话 器 通道 被 蔡 代 使 用 。 

下 面 的 语音 信和 号 的 参数 按 从 25kHz 至 16kHz 的 向 下 抽样 数据 分 析 : 信和 号 一 噪 
声 比 (SNR), ， 即 平均 的 噪声 和 话音 的 功率 谱 、 基 频 、 前 4 个 共振 峰 的 频率 和 带宽 
以 及 谱 斜 率 。SNR 从 3 个 方面 进行 评估 : (D 分 段 SNR EFAS; @ 平均 噪声 功率 
if; @ 平均 嗜 杂 语音 的 功率 谱 。 从 第 一 种 方法 得 到 的 SNR 分 布 如 图 1.3 所 示 ; F 
均 SNR 达到 -2.7 dB， 标 准 偏差 为 4.44B。 需 要 注意 的 是 ，SNR 值 的 分 布 是 相当 低 
的 ， 因 为 驾驶 员 到 送 话 器 摆 放 位 置 有 一 定 距 离 。 
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为 了 验证 分 段 检 测 的 评估 ， 93 
在 下 一 个 步骤 中 ，SNR 将 通过 所 





有 非 语 音 段 提取 的 平均 噪声 功率 D 
ie (N) 直接 进行 评估 ,平均 噪 
声 语 声 功率 谱 (SN) 通过 所 有 乘 E 

M 、 = u=-2.7dB; o=4.4dB 
客 交 流 、Tell- Me 和 AA 段 评估 : — 1 

a SN, - N 

SNR = 10 È —— 

k k 
(1.1) -20 -10 0 10 20 


SNR/dB 


式 中 一 一 功率 谱 频 点 的 指数 。 

从 功率 谱 获得 的 SNR 评估 达 图 1.3 所 有 测试 中 的 SNR 分 布 
到 -3.2dB， 确 定 了 一 个 合理 、 准 确 的 分 段 SNR 评估 。 没 有 对 话 的 噪声 分 段 和 从 
SN 中 减 去 W 来 评估 的 纯 对 话 的 平均 功率 谱 如 图 1.4 所 示 。 可 以 看 出 ,在 低频 时 ， 
与 语音 相 比 ， 汽 车 噪声 谱 占 主导 地 位 ; 而 在 频率 高 于 300Hz 时 ， 尽 管 SNR 很 低 ， 
但 语音 占 主 导 地 位 。 











— — 预 估 平均 清洁 讲话 谱 
= 平均 汽车 噪声 谱 
-80 
10! 10? 10° 104 
频率 /Hz 


对 所 有 测试 的 平均 





图 1.4 噪声 和 清洁 讲话 的 平均 振幅 谱 


在 下 一 步骤 中 ， 对 语音 参数 进行 了 分 析 。 乘 客 的 对 话 ( 记 为 中 性 ) Tell-Me 
和 AA 对 话 的 基 频 分 布 如 图 1. 5 所 示 ， 其 中 男 + 女 代表 混 合 性 别 的 数据 集 。 相 对 于 
中 性 基 频 (145 Hz), Tell- Me 和 AA 样本 在 平均 基 频 (177 Hz 和 161 Hz) 上 都 显 
示 明 显 的 增加 。 

使 用 WaveSurfer 示波器 :2 提取 语音 段 的 前 四 个 共振 峰 的 平均 中 心 频 率 和 带宽 。 
与 中 性 、Tell- Me 和 AA 对 话 的 比较 见 表 1. 2。 语 音 段 是 根据 参考 文献 [17] 采用 
的 语音 基 频 跟踪 算法 (RAPT) 的 输出 进行 辨识 。 
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0.4 


u=145Hz; o=81Hz 一 中 性 男 + 女 
— - -Tell-Me 男 + 女 
HA=161Hz;， o=80Hz 一 一 AA 男 + 女 


V 


归 一 化 的 发 生 率 (-) 
o 
io 





0 200 400 600 
基 频 /Hz 


图 1.5 中 性 情况 、Tell- Me 和 AA 测试 中 基 频 的 分 布 
表 1.2 共振 峰 的 中 心 频率 和 带宽 (在 括号 中 ) 




















共振 峰 和 带宽 /Hz 
E n 脚 本 Fl F2 F3 F4 

女 中 性 555 (219) 1625 (247) 2868 (312) 4012 (327) 
Tell- Me 703 (308) 1612 (276) 2836 (375) 3855 (346) 

AA 710 (244) 1667 (243) 2935 (325) 4008 (329) 

男 中 性 450 (188) 1495 (209 ) 2530 (342) 3763 (343) 
Tell- Me 472 (205) 1498 (214) 2525 (341) 3648 (302) 

AA 503 (188) 1526 (215) 2656 (330) 3654 (369) 


FL 的 平均 中 心 频率 和 标准 偏差 如 图 1.6 所 示 。 从 Tell-Me 和 AA 数据 中 可 以 观 
REL 持续 上 升 。AA AY F2 A F3 男女 均 增 加 ， 而 Tel- Me 保持 相对 稳定 。 


900 


600 


女性 FI/Hz 


一 A 一 Fl 男性 





300 
乘客 对 话 Tell-Me 美国 航空 公司 


图 1.6 在 中 性 、Tell- Me 和 AA 条 件 下 的 平均 Fl 的 中 心 频率 (有 标准 偏差 的 误差 图 ) 











t 





需要 注意 的 是 ,已 经 报告 过 Fl Al F2 TETUR. AULA Lombard 语音 模 
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式 5 下 的 增加 。 最 后 ， 有 声 的 语音 段 的 谱 和 斜率 通过 直线 拟 合 来 提取 ， 通 过 使 用 
线性 回归 的 方法 ， 将 短 时 功率 谱 在 对 数 振幅 /对 数 频 率 平面 内 拟 合 为 一 条 直线 。 
平均 谱 和 斜率 达到 值 约 为 -10.4dB/Oct， 表 明 奈 力 分 类 之 间 没 有 显著 的 差异 。 请 注 
xb. 平均 斜率 比 在 相关 参考 文献 中 报告 的 纯 中 性 语音 略 高 ， 大 概 是 由 于 汽车 背景 存 
在 较 大 的 噪声 ， 这 引入 了 额外 的 频谱 倾斜 。 

在 本 节 进 行 的 分 析 揭 示 了 在 选 定 的 中 性 和 压力 等 级 之 间 的 Fl 、F2 中 心 频率 的 
差异 ， 明 确 了 最 初 关 于 Tell-Me 和 AA 段 存 在 压力 是 由 于 认 知 负荷 压力 的 增加 这 一 
假设 是 有 效 的 。 


1.3.2 压力 的 自动 分 类 


在 本 节 中 ， 提 出 并 评价 了 基于 语音 的 中 性 /压力 分 级 。 为 了 分 类 的 训练 和 测试 
的 目的 ，15 个 笃 驶 员 的 数据 被 分 为 一 个 训练 集 和 一 个 测试 集 ， 训 练 集 包 括 两 个 男 
驾驶 员 和 两 个 女 驾 驶 员 的 语言 样本 ， 测 试 集 包 括 6 个 男 驾 驶 员 和 5 个 女 驾驶 员 。 

选择 高 斯 混合 模型 (GMM) 来 表示 中 性 /压力 分 类 的 概率 密度 函数 (PDF)。 
第 7 个 GMM 生成 的 观察 矢量 o, 的 概率 通过 下 式 计 算 : 






































jos > ‘in we ECHTE Gc) (1.2) 
式 中 mm 一 一 高 斯 混合 分 量 的 指数 ; 
1 一 一 总 数 的 混合 ; 
混合 权重 ， 所 以 
































Cim 

n 0, 的 维 数 ; 
E, RADIAR; 
p 一 混合 均 值 矢量 。 


= 1 (1.3) 

代表 中 性 语言 的 GMM 通过 乘客 对 话 进行 训练 ， 而 代表 压力 语言 的 GMM 通过 
训练 集中 的 Tell- Me 和 AA 的 联合 对 话 来 训练 。 在 中 性 /压力 分 类 任务 中 ， 成 功 的 模 
型 通过 使 用 最 大 似 然 准则 选择 : 


1, > log(b,(0,)) - È log(6,(0,)) = Th 
hal. x (1.4) 
2, È, log(b,(0,)) = È log(b,(0,)) < Th 
式 中 1 一 一 时 间 帧 指数 ; 
7 一 一 分 类 发 声 的 总 帧 数 ， 
Th 一 一 判定 阔 值 。 
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在 我 们 的 实验 中 ， 帧 的 长 度 被 设 定 为 25ms， 每 10ms fé — Ux, HEBREA 
固定 值 Th =0。 根据 特征 提取 方案 ，GMM 包括 32 ~ 64 个 混合 ， 只 计算 协 方差 矩阵 
中 的 对 角 线 。 除 非 另 有 规定 ，cu - cis 组 成 静态 观察 特征 矢量 。 在 所 有 评价 设置 中 ， 
变量 和 加 速 系数 从 静态 系数 中 提取 ， 并 组 成 特征 矢量 。 各 种 特征 ， 包 括 Mel 频率 倒 
谱系 数 ( MFCC) ， 都 被 考虑 到 了 。 

在 UTDrive 会 话 中 ， 中 性 自然 的 会 话 数 据 量 远 远 超过 Tell- Me 和 AA 样本 的 数 
量 。 在 这 种 情况 下 ， 可 能 的 小 量 压力 样品 的 误 判 对 总 分 类 精度 产生 的 影响 不 大 ， 这 
样 对 含有 中 性 数据 的 正确 分 类 将 保证 整体 的 高 精度 。 为 了 消除 中 性 和 压力 集 不 同 大 
小 的 影响 ， 并 考量 到 针对 Tell-Me 和 AA 对 话 场景 最 佳 前 端的 以 准确 度 为 基础 的 选 
择 ， 总 分 类 精度 定义 如 下 : 
2AccN_N +Accrnme_s + Accan_s 
4 
式 中 Acey ,一 一 中 性 样本 被 归 类 为 中 性 的 准确 性 ; 

Acerame_s 一 一 Tell- Me 样本 被 归 类 为 压力 的 准确 性 ; 

Accsa_s 一 一 AA 样本 被 归 类 为 压力 的 准确 性 。 

在 中 性 /压力 分 类 任务 中 ， 对 几 个 特征 提取 前 端的 效率 进行 评价 。 特 别 是 Mel 
频率 倒 谱 系数 ( MFCCU? ) 、 感 知 线性 预测 (PLP) AY Ne AB! | Expolog f£] 
EC 和 逆 谱 进行 比较 ， 它 们 从 分 布 为 一 个 线性 的 频率 范围 内 (20 个 频段 ) 0:395] 
的 20 个 非 重 受 的 矩形 滤波 器 组 中 提取 。MFCC 在 语音 /扬声器 识别 中 代表 共同 的 基 
准 前 端 ， 大 量 的 研究 已 经 显示 PLP 在 不 同 的 语言 相关 的 任务 中 能 够 提供 与 MFCC 
相当 或 更 好 的 性 能 。 

Expolog 是 口音 分 类 和 有 压力 语音 识别 研究 的 成 果 ， 且 在 中 性 噪声 和 Lombard 
的 语音 识别 :5 中 ， 基 于 20 频段 滤波 器 的 特点 显示 出 卓越 的 性 能 。 

在 这 项 研究 中 ，Expolog 和 20 频段 滤波 器 组 可 以 用 作 MFCC 中 三 角形 Mel 滤波 
器 的 替代 品 ， 生 成 表示 为 Expolog DCT 和 20 频段 的 DCT 的 前 端 ， 或 作为 PLP 梯形 
Bark 滤波 器 的 替代 ， 产 生 表 示 Expolog LPC 和 20 频段 LPC 的 设置 。 为 了 减少 强 背 
景 噪声 对 分 类 的 影响 ， 在 特征 提取 时 ， 利 用 了 使 用 Burg 基于 倒 谱 的 语音 活动 检测 
器 :所 的 全 波谱 减法 (FWSS)。 在 表 1.3 和 图 1.7 中 对 分 类 结果 进行 了 总 结 。 表 1.3 
中 的 结果 的 第 一 行 表示 一 个 无 噪声 去 除 (NS) 分 类 需 的 性 能 ， 表 示 为 “None”。 

X13 分 类 性 能 ; 正常 化 的 准确 性 (% ) 

















Acc (96) (1. 5) 
















































































Expolog Expolog 20 频段 20 频段 20 频段 
NS MFCC PLP LPC LPC LPC DCT DCT11 
None 83.7 83.1 81.4 81.9 84.2 84.1 83.6 


FWSS 85.6 85.1 86.2 85.4 83.5 87.6 88.2 
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由 此 可 以 看 出 ， 在 大 多 — 890 
数 情况 下 ，FWSS 显著 地 提高 
了 性 能 。 在 前 端 采用 13 个 静 
态 系数 以 及 它们 的 第 一 和 第 
二 阶 时 间 导 数 ， 使 用 FWSS 的 
20 频段 DCT 具有 最 高 的 分 类 
精度 (87.6%). 。 同 时 可 以 观 
察 到 ， 静 态 倒 频谱 系数 矢量 70 
数目 从 13 减 小 到 11 (e, - 
cu)， 记 为 20 频段 DCT11， 





正常 化 的 分 类 准确 性 (%9) 
S 2 











准确 率 将 进一步 提高 到 Lr 
88.2% 。 在 此 时 的 设置 中 ， 图 1.7 前 端的 分 类 表现 





各 自 的 精确 度 分 别 为 Acey_y = 94.196, Aces, s =70.0% 和 Acca s = 100.096, 
注意 ， 准 确 性 和 组 内 混 消 度 在 式 (1.4) 中 可 以 通过 调整 Th 来 进一步 平衡 ， 然 而 
这 样 需要 额外 的 可 利用 开发 数据 。 


1.4 使 用 CAN 总 线 信 号 的 分 心 /压力 检测 


在 这 部 分 的 研究 中 ， 在 一 个 CAN 总 线 信号 (主要 是 方向 盘 的 角度 和 速度 ) 的 
子 集 基础 上 ， 使 用 驾驶 员 性 能 指标 、 信 号 处 理工 具 以 及 统计 数据 ， 开 发 了 一 个 分 心 
检测 模块 。 一 个 普通 的 分 心 检测 系统 ， 没 有 动作 /环境 信息 和 驾驶 员 特殊 动作 的 基 
准 ， 是 很 难 设计 的 ， 由 于 依赖 于 驾驶 员 特点 和 路 线 / 动 作 / 环 境 ， 指 标 /功能 的 标 称 
值 的 通用 基准 会 有 一 个 大 范围 的 变化 。 

CAN 总 线 信 号 可 以 揭示 轰 CAN 总 线 信号 
驶 员 分 心 等 级 ， 当 路 线 和 驾驶 - 
员 特 点 的 变异 被 消除 或 处 理 
时 ， 它 们 不 会 产生 错误 报警。 - 
因此 ， 提 出 了 为 每 一 个 驾驶 员 ” 
和 一 个 特定 路 线 使 用 一 种 基准 
的 方法 。 该 方法 的 一 般 流 程 如 
图 1.8 所 示 。 路 线 /特定 路 段 产生 的 信号 的 变化 在 此 通过 路 线 分 类 被 消除 。 

特征 提取 过 程 后 ， 与 条 件 为 中 性 时 类 似 ， 分 心 检测 通过 采取 在 同 路 段 (在 图 
1.2 中 两 个 标记 ) 得 到 的 一 个 给 定 路 线 的 驾驶 员 基 准 进行 。 由 于 UTDrive 资料 库 包 
含有 相同 的 路 线 、 相 同 驾 驶 员 在 不 同 的 条 件 下 收集 的 多 个 会 话 ， 因 此 可 以 很 容易 地 
获得 基准 。 分 心 检测 的 算法 流程 如 图 1.9 所 示 。 

特征 矢量 中 的 每 个 元 素 的 归 一 化 比较 比率 (a) 都 计算 出 。 在 多 个 时 间 间 隔 的 





1.8 基于 CAN 总 线 分 析 一 般 采 用 的 方法 的 流程 
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图 1.9 基于 CAN 总 线 信号 特征 提取 的 分 心 检 测算 法 流程 


羡 值 使 用 比较 比率 。 每 个 阐 值 的 时 间 间 隔 被 分 配给 一 个 概率 。 例 如 ， 如 果 该 比率 在 
0.1~1 之 间 ， 分 心 的 概率 是 0.7; 如 果 该 比率 大 于 20， 那么 它 将 等 于 1。 这 种 分 配 
方法 可 以 对 分 心 进行 可 能 性 评估 ， 或 者 可 以 给 分 心 等 级 一 个 定义 。 

比较 值 的 幅度 大 于 0. 1 被 认为 是 显著 的 分 心 。 如 果 比 较 值 幅 度 低 于 0. 1， 会 话 
将 被 假定 为 是 足够 接近 基线 ， 从 而 可 以 认为 是 中 性 的 。 随 着 比较 比率 的 增加 ， 分 心 
的 概率 将 增加 ， 最 大 值 为 1， 如 图 1.9 所 示 。 这 个 概率 映射 结束 时 ， 概 率 沿 着 特征 
矢量 〈 现 通过 比较 比率 组 成 ) 相 加 ， 并 通过 除 以 特征 矢量 所 得 到 的 似 然 值 来 归 一 
化 。 下 书 将 介绍 特征 提取 的 过 程 ， 以 及 选择 特征 矢量 元 素 的 动机 。 


1.4.1 基于 CAN 总线 的 功能 


功能 选择 基于 与 分 心 的 相关 性 和 动作 的 定义 。 使 用 彩色 编码 的 驾驶 时 间 线 图 ， 
可 以 观察 到 路 线 2 包含 车 道 保持 和 驾驶 中 的 曲线 通过 任务 。 在 车 道 保 持 任 务 中 ， 在 
相关 参考 文献 中 建议 了 驾驶 员 的 几 种 表现 指标 ， 这 些 指标 大 多 数 通 过 计算 方向 盘 转 
角 (SWA) 输入 的 波动 或 微调 表征 。 在 这 些 指标 中 ， 一 个 被 广泛 接受 的 方法 是 样 
本 一 致 性 ”和 标准 差 。 如 果 驾 驶 员 全 神 贯 注 并 在 控制 之 中 ， 使 用 车 道 偏离 测量 也 
可 以 。 在 车 道 保持 任务 中 ， 方 向 盘 的 反 向 转动 速率 也 被 认为 是 一 个 可 靠 的 衡量 驾驶 
员 表 现 的 指标 。Boer 77 最 近 更 新 了 他 以 前 的 工作 ， 并 做 出 了 一 些 调整 ， 将 高 频率 
纳入 考虑 。 

也 有 参考 文献 [24] 进行 了 深入 的 分 析 ， 计 算 与 SWA 相关 的 指标 时 ， 速 度 的 
间隔 很 重要 ， 因 为 与 较 高 的 速度 相 比 ， 低 速 需要 更 多 的 SWA 输入 ， 
车 辆 横向 移动 量 。 对 于 曲线 通过 ， 一 个 角 恒 定 的 输入 需要 使 用 道路 曲率 的 视 
输入 。 

新 手 或 者 注意 力 不 集 中 的 驾驶 员 可 能 有 SWA 的 波动 ， 总 的 趋势 是 速度 应 减少 ， 
同时 根据 曲线 来 平衡 离心 力 。 虽 然 性 质 不 同 ， 但 从 驾驶 员 的 角度 来 看 ， 车 道 保 持 与 
曲线 通过 可 以 当做 调整 控制 任务 。 因 此 ， 我 们 利用 现 有 的 关于 驾驶 员 表 现 /行为 的 
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言 息 和 观察 ， 选 择 了 一 个 七 维 的 特征 矢量 ， 包 括 小 波 分 解 (WD) 的 高 频 分 量 的 能 
量 、 样 本 一 臻 性、 标准 偏差 和 变化 率 的 标准 偏差 (R-STD)。 所 有 的 特征 都 为 SWA 
提取 ， 除 了 用 于 R- STD 的 速度 通道 外 ， 其 余 的 都 只 适用 于 SWA。 取 时 间 窗 口 的 长 
度 等 于 动作 的 长 度 ， 且 在 特征 计算 时 信和 号 长 度 的 影响 被 消除 。 特 征 矢量 的 输入 条 目 
以 及 它们 的 定义 在 表 1.4 中 列 出 。 

表 1.4 特征 矢量 和 定义 















































符 号 E X 

WDE SWA SWA 的 小 波 分 解 的 细节 信和 号 能 量 
WDE, speed 速度 的 小 波 分 解 的 细节 信和 号 能 量 
SampEnt_SWA SWA 的 样本 一 致 性 

SampEnt, speed SWA 的 样本 一 致 性 

STD_SWA SWA 的 标准 偏差 

STD_speed SWA 的 标准 偏差 

STD_SWAR SWA 率 的 标准 偏差 











对 于 小 波 分 解 ， 使 用 了 四 阶 的 Daubechies 小 波 核 ,详细 的 信号 利用 到 第 6 
层 。 选 择 Daubechies 小 波 是 因为 它 可 以 很 好 地 近似 带 有 尖峰 和 不 连续 的 属性 的 信 
号 。 鉴 于 人 们 控制 的 局 限 性 ， 调 整 信号 的 水 平和 阶 次 来 提取 高 频 内 容 的 信号 ;更 高 
的 细节 将 被 忽略 ， 因 为 它们 可 能 是 在 测量 中 其 他 的 干扰 而 不 是 驾驶 员 造 成 的 。 在 方 
程 组 (1.6) 中 给 出 了 缩放 倍数 [ 式 (1. 6a)]、 小 波 函 数 系 数 [ 式 (1.6b)], 2i 
放 函 数 [5X (1.6c)] 和 DB4 小 波 函 数 [ 式 (1.6d) ] : 
_14+3 h 32443 h 3-43 h 1-43 











ho , Lv , Dm , qe exe (1. 6a) 
442 442 442 442 

gy =hs, g= - hj, GB =h, g3= -h (1. 6b) 

a; = hos; + hy 89544 + hsyirs asus (1. 6c) 

Cj = B052; + 8182141 + 829242 + 8352143 (1. 6d) 


样本 一 致 性 (SampEnt) ， 它 用 来 量化 信号 的 规律 性 和 复杂 性 ， 与 测量 信和 号 
SWA 的 规律 性 匹配 较 好 。 众 所 周知 ， 在 生物 信号 处 理 方面 ， 如 脑 电 图 (EEG), 4» 
电 图 (ECG) 和 肌 电 图 (EMG)， 长 期 以 来 一 直 采 用 基于 一 致 性 的 方法 来 测量 规律 
性 和 检测 异常 。 计 算 样 本 一 致 性 的 方法 参照 参考 文献 [26] 的 描述 。 针 对 带 有 统 
计 形 式 的 语言 的 语音 典型 来 计算 其 标准 偏差 。 


1.4.2 分 心 检测 性 能 


使 用 如 图 1.9 所 示 的 算法 流程 以 及 如 表 1.4 所 解释 的 特征 矢量 , 使 用 了 14 位 
驾驶 员 (20 段 会 话 ，7 名 男性 和 7 名 女性 驾驶 员 ) 的 数据 ,检测 了 96 种 车 道 保 持 
的 比较 情况 和 113 种 曲线 通过 情况 。 同 时 ， 在 图 1.10 中 给 出 了 车 道 保 持 动作 的 
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WDE_ SWA 特征 数目 。 很 容易 看 到 ， 分 心 时 的 会 话 一 般 都 大 于 这 个 指标 的 基线 。 
在 表 1.5 中 给 出 了 分 心 检 测 精确 度 ， 其 中 包括 使 用 七 维 的 特征 矢量 (LKS) 和 使 用 
仅 包含 SWA 相关 特征 子 集 (LKC) 的 四 维特 征 矢 量 ， 最 终 的 分 类 结果 的 阔 值 为 
0.2、0.1 和 0。 


80 








* WDE.SWA 分 心 


= WDE.SWA 中 性 


幅 值 


WDE SWA 





比较 事件 的 数量 
图 1.10 对 96 种 车 道 保 持 情 况 小 波 分 解 的 细节 信号 能 量 的 SWA 计算 





从 表 1.5 中 可 以 看 出 ， 如 果 将 任何 概率 大 于 零 的 值 纳 入 考虑 ， 在 Tell- Me/AA 
交流 中 ， 分 心 检测 在 使 用 车 道 保持 段 (LKS) 时 精确 度 可 达到 98% ， 使 用 曲线 通 
过 段 (LKC) 可 达到 84% 。 


表 1.5 分 心 检 测 的 精确 度 








Bj — f& 
BRAG 度量 0.2 0.1 0 (二 进 制 ) 
LKS 计数 72/96 72/96 84/96 76/96 95/96 76/96 
精确 度 (96) 75 64 87 79 98 79 
LKC 计数 65/113 64/113 82/113 79/113 95/113 79/113 
精度 (96) 57 56 72 69 84 69 





VAR EET Dt T UAR, HORT Bb T SEA poU BR, AR A TRE 
中 在 使 用 具有 相同 的 特征 空间 内 的 合集 中 进行 通用 的 分 心 检测 。 


1.5 小 结 


在 这 项 人 研究 中 ， 使 用 包括 真实 驾驶 记录 的 UTDrive 数据 库 ， 分 析 了 认 知 负 价 对 
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驾驶 员 的 影响 。 尤 其 是 ,研究 了 驾驶 员 语 音信 号 和 CAN 总 线 信号 ， 并 在 随后 自主 
语音 和 CAN 总 线 中 性 /压力 (分 心 ) 分 类 器 的 设计 中 加 以 利用 。 在 与 这 驶 员 和 路 
线 无 关 的 开放 测试 设 定 的 任务 中 ， 基 于 语音 的 中 性 /压力 分 类 的 精确 度 达 到 了 
88.2% 。 在 驾驶 员 和 路 线 相 关 的 开放 测试 enh 利用 CAN 总 线 信 号 的 分 
心 检测 评估 ， 在 车 道 保 持 段 和 曲线 通过 段 ， 分 心 检测 精确 度 分 别 为 98% 和 8496 。 
结果 表明 ， 未 来 语音 与 CAN 总 线 为 基础 的 分 类 器 的 融合 可 能 会 产生 一 个 可 靠 的 评 
估 持 续 压 力 (分 心 ) 的 框架 。 
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摘要 : 人 类 的 感觉 、 感 知 和 表达 感情 的 方式 有 很 大 的 不 同 ， 这 是 由 于 生理 、 心 
理 、 环 境 、 文 化 和 语言 的 差异 。 例如， 根据 一 个 多 世纪 以 来 心理 学 家 的 认识 和 研 
究 ， 与 具备 不 同文 化 背景 的 人 相 比 ， 具 备 相 同文 化 背景 的 人 能 够 更 加 容易 地 正确 判 
断 和 认识 情绪 。 在 本 章 中 ,我 们 尝试 使 用 Berlin 数据 集 和 NAW 数据 集 的 两 个 语音 
资料 库 ， 来 研究 语音 情绪 识别 问题 。 针 对 所 记录 的 德国 和 美国 讲话 者 的 两 个 不 同文 
化 语言 的 数据 集 ， 我 们 研究 了 其 普遍 性 和 多 样 性 。 将 这 些 数据 集中 没有 情绪 的 数据 
作为 中 性 ， 进 行 了 实验 来 确定 3 个 基本 情绪 ， 即 愤怒 、 悲 伤 和 快乐 。MFCC 系数 作 
为 实验 中 的 特征 集 ， 利 用 MLP 作为 分 类 器 对 这 些 数据 的 性 能 进行 了 比较 。 此 外 ， 
实时 记录 在 一 个 特定 汽车 配置 上 的 驾驶 员 语 音 也 被 测试 来 查看 其 性 能 。 最 后 ， 引 入 
了 语音 情绪 分 析 的 方法 来 探索 语音 情绪 特征 的 普遍 性 和 多 样 性 。 

关键 词 : Berlin 数据 集 ; Mel 频 浴 倒 谱 系数 (MFCC); 多 层 感知 器 (MLP); 
NAW 数据 集 ; 语音 情绪 分 析 ; 语音 情绪 识别 


2.1 简介 


在 20 世纪 ,许多 来 自 不 同学 科 的 研究 人 员 曾 试图 从 所 有 多 彩 生动 的 感情 中 假 
设 一 些 基 本 的 情绪 。 其 中 的 一 个 模型 建议 ， 每 一 种 情绪 都 是 由 不 同等 级 的 特定 基本 
成 分 组 成 的 ， 包 括 兴 奋 、 有 上 压力、 厌恶 以 及 自我 导向 等 。 在 众多 模型 中 ， 有 一 个 普 
遍 存 在 的 猜想 ， 情 绪 的 产生 与 颜色 产生 的 方法 大 致 相同 一 一 几 种 基本 成 分 的 颜 
色 " 组 合 可 以 呈现 出 无 数 的 色调 。 至 目前 为 止 , 认 知 科学 不 具备 决定 各 种 基本 情 
绪 模 型 的 测试 。 然 而 ， 不 同学 科 领 域 的 研究 人 员 都 认可 将 一 些 情绪 作为 基础 ， 而 把 
其 他 情绪 作为 辅助 。Cornelius 已 标记 6 种 情绪 作为 “六 大 情绪 "六 ， 分 别 是 生气 、 
高 兴 、 悲 伤 、 和 恐惧、 惊讶 和 厌恶 。 在 本 研究 中 ， 我 们 也 这 样 选择 。 然 而 ， 在 本 章 中 
我 们 只 专注 于 生气 、 悲 伤 和 高 兴 ， 而 将 中 性 视 为 一 种 无 情绪 的 状态 。 

相对 于 心理 学 家 ， 从 工程 的 角度 看 ， 情 绪 识 别 是 一 个 比较 新 的 研究 领域 。 人 们 
已 经 认识 到 ， 在 互动 中 能 够 传递 和 感知 底层 的 情绪 ， 现 在 科学 家 和 研究 人 员 能 够 使 
用 信号 处 理工 具 来 分 析 一 个 倾诉 者 对 一 个 聆听 者 所 传输 的 大 量 信息 。 然 而 ， 我 们 都 
在 努力 了 解 情绪 ， 更 关键 的 是 ， 通 过 一 种 以 技术 为 目的 的 有 用 形式 来 获取 和 处 
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理 它 。 

2001 4E, Sherer 等 人 在 欧洲 、 美 国 和 亚洲 的 九 个 不 同 国家 对 声音 情绪 的 描述 进 
TM, HATS EPSON AT, BUR, A., RMA BOR APES 
TR. WHER, OS EA A PEAR SB AICS, 一般 来 说 随 着 语言 相 异 性 的 
提高 而 精度 降低 。 所 得 到 的 结论 是 ， 文 化 和 语言 特定 的 副 语 言 模式 可 能 会 影响 到 情 
绪 识 别处 理 。 

在 本 章 中 ， 我 们 通过 提出 Mel 频率 倒 谱 系数 (MFCC) 作为 语音 情绪 识别 的 特 
征 ， 从 而 解决 这 个 问题 。 特 征 提 取 方 法 的 基础 是 Slaney ”方法 加 上 WEKA 多 层 感 
知 器 (MLP) 的 分 类 方法 。 采 用 这 些 来 鉴定 3 个 基本 情绪 ， 即 愤怒 、 悲 伤 的 和 快 
乐 的 情绪 状态 。 首 先 ， 两 个 不 同 的 语音 情绪 数据 集 一 使 用 NAW 数据 集 (美国 演 
员 ) All Berlin 数据 集 (德国 演员 ) 一 一 被 用 来 训练 和 测试 所 提出 的 基于 K 重 验 证 
技术 系统 的 精确 性 。 接 下 来 ， 我 们 扩大 了 测试 范围 ， 通 过 使 用 在 驾驶 中 实时 记录 的 
语音 数据 ,来 分 析 和 了 解 驾 驶 员 的 驾驶 行为 "1 。 在 驾驶 过 程 中 ， 要 求 驾驶 员 与 乘 
客 互 动 ， 并 与 一 个 来 电 者 对 话 。 为 安全 起 见 ， 使 用 的 移动 电话 配备 了 一 个 免 提 
模块 。 

3 种 不 同情 景 的 记录 基于 : 

e 驾驶 过 程 中 用 手机 对 话 时 驾驶 员 处 于 压力 状态 ; 

e 驾驶 过 程 中 大 笑 ; 

。 驾驶 员 感 觉 到 很 困 。 

ix 3 个 驾驶 情况 下 的 数据 与 两 个 标准 数据 集 进 行 比 较 ， 即 NAW 和 Berlin 数 
据 集 。 

除了 所 研究 的 语音 情绪 识别 系统 ， 我 们 也 探讨 作为 一 种 替代 工具 分 析 的 语音 情 
绪 ， 以 更 好 地 了 人 解 语音 情绪 ， 并 分 析 其 中 和 内 在 的 文化 行为 。 这 样 的 工具 似乎 对 语 
音 情绪 中 的 隐藏 特征 提供 了 一 个 更 深入 的 了 解 。 

本 书 组 织 如 下 : 在 2.2 节 ， 用 Mel 频率 倒 谱 系数 (MFCC) 作为 特征 ，MLP 作 
为 分 类 器 ， 在 这 个 系统 特征 提取 方法 的 基础 上 ， 针 对 建议 的 语音 情绪 识别 系统 ， 我 
们 提出 了 相应 的 理论 和 实验 的 框架 。 在 2.3 节 ， 针 对 建议 的 语音 情绪 分 析 系 统 进行 
了 实验 研究 ， 对 驾驶 数据 集 与 那些 使 用 NAW 和 Berlin 数据 集 的 结果 进行 了 比较 分 
析 。2. 4 节 讨 论 了 研究 工作 的 结果 和 结论 ， 以 及 一 些 可 以 帮助 将 这 一 分 析 延 伸 到 一 
个 新 的 水 平 的 计划 。 
































2.2 MFCC-MLP 语音 情绪 


在 过 去 的 几 十 年 中 ，MFCC 特征 已 经 被 成 功 地 用 于 高 端的 语音 识别 和 说 话 人 识 
别 。 然 而 ， 在 应 用 中 也 有 很 多 变化 ， 变 化 的 形式 有 滤波 器 的 数量 、 滤 波 器 的 形状 、 
带宽 和 频谱 变形 的 方式 。 在 分 类 实验 中 ，Slaney HE —— th Ganchev 等 人 中 的 研 
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究 发 现 给 出 了 一 个 比 许多 早期 的 作品 稍微 好 一 点 的 结果 。 因 此 ， 在 这 项 研究 中 
我 们 采取 了 Slaney 的 Matlab 听觉 工具 箱 中 所 描述 的 方法 。 

一 旦 语音 中 的 MFCC 特征 被 提取 ， 然 后 基于 Bishop 研究 中 中 使 用 的 多 层 感知 
ar (MLP) 技术 对 语言 情绪 进行 分 类 / 认 知 ， 其 中 在 初步 的 实验 中 确定 语言 情绪 识 
别 系 统 的 初始 准确 度 。MLP 使 用 几 个 感知 层 的 组 合 ， 这 些 感知 层 彼 此 互 连 ， 并 表 
现 出 高 度 的 连接 性 ， 这 是 由 网 络 神经 元 的 突 触 决定 的 。 它 包括 三 个 主要 的 层 ， 输 入 
层 、 隐 藏 层 和 输出 层 。 在 输入 层 中 ， 数 据 提 供给 网 络 ， 从 而 输入 神经 元 的 数目 必须 
是 等 效 的 数据 的 功能 数目 。 每 一 个 数据 项 由 网 络 给 出 一 个 权重 ， 来 传递 到 隐藏 层 ， 
通过 激活 函数 进行 非 线 性 计算 。 输 情绪 语言 
出 层 是 整个 隐藏 层 结果 的 总 和 。 $ eO 
MLP 使 用 普遍 存在 的 反问 传播 算法 
作为 其 学 习 的 过 程 。 

图 2.1 所 示 为 提出 的 语音 情绪 
识别 系统 ， 在 这 里 情绪 语言 首先 被 
分 类 和 构成 。40 个 MFCC 特征 被 提 
取出 来 ， 后 来 使 用 MLP 分 类 。 语音 
情绪 的 分 析 和 学 习 系 统 的 其 他 附加 
模块 是 为 了 提高 语音 情绪 识别 系统 ， 
来 迎合 其 中 和 内 在 文化 的 差异 。 在 
AHP, 下面 只 介绍 情绪 分 类 和 人 情 
绪 分 析 的 一 些 前 期 工作 。 

2.2.1 Berlin 数据 集 

Berlin 情绪 语音 数据 库 ' 小 包含 10 个 句子 ， 很 少 有 情绪 的 文本 内 容 。 它 是 德语 ， 
涵盖 7 个 情绪 类 ， 即 人 愤怒、 恐惧、 快乐、 悲伤 、 恶 心 、 厌 倦 和 中 性 。 预 先 准 备 好 了 
口语 材料 ， 并 提供 给 5 位 男性 专业 演员 和 5 位 女性 专业 演员 。 录 音 在 工作 室 条 件 下 
使 用 高 品质 的 录音 设备 完成 ， 且 采用 8. OkHz 的 采样 速率 单 声 道 波形 格式 保存 。 完 
整 的 数据 库 已 通过 20 个 人 的 人 工 感 知 测试 来 预先 评价 。 


2.2.2 NAW 数据 集 
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情绪 分 类 系统 
语音 情绪 分 析 
2.1 









图 展示 所 提出 的 语音 情绪 识别 系统 











NAW 数据 集 '， 使 用 一 些 从 互联 网 上 获得 的 电影 和 电视 情景 喜剧 的 视频 剪辑 整 
理 ， 参 与 者 母语 为 美式 英语 。 说 话 者 描绘 的 情绪 已 被 分 析 和 识别 ， 这 是 基于 语音 语 
义 、 说 话 者 的 面部 表情 和 对 视频 片段 中 所 出 现 情况 的 基本 了 解 。 

这 些 视频 剪辑 被 转换 为 采样 速率 8. 0kHz 、 单 声 道 的 MP3 音频 文件 ， 且 它们 的 
幅 值 在 (-1, +1) V 范围 内 缩放 。 使 用 这 组 数据 的 一 些 研究 结果 已 经 早 些 时 候 
在 参考 文献 [4, 5, 13] PER. 
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2.2.3 人 类 感知 测试 


为 了 确保 获得 的 视频 剪辑 的 NAW 数据 集 被 正确 地 感知 ， 人 工 感知 测试 随 
后 进行 。 在 这 个 测试 中 ， 共 有 40 个 人 一 一 11 个 来 自 新 加 坡 的 南洋 理工 大 学 
(9 名 男性 和 2 名 女性 ) ，29 个 来 自 马 来 西亚 国际 伊斯兰 大 学 (15 名 男性 ，14 
名 女性 ) ,平均 年 龄 23 岁 一 一 自愿 为 所 提供 的 语音 情绪 的 音频 文件 提供 他 们 的 
认定 评估 。 

参与 试验 的 人 员 报 告 称 ， 人 类 感知 测试 开始 之 前 他 们 已 经 经 历 了 中 性 情绪 。 这 
项 调查 是 在 实验 室 环境 下 进行 的 ， 这 里 判断 者 能 够 在 分 心 最 小 的 情况 下 听 这 些 语言 
情绪 的 音频 文件 。 他 们 坐 在 电脑 前 ， 通 过 耳机 听 着 语言 情绪 音频 文件 ， 从 而 确保 判 
断 者 能 够 不 间断 地 听 音 频 文 件 。 对 于 每 个 的 语音 情绪 音频 文件 ， 他 们 在 包括 中 性 情 
绪 在 内 的 6 个 强迫 选择 格式 下 指示 所 感知 的 情绪 ， 见 表 2. 1。 


表 2.1 NAW 数据 集 人 类 辨识 能 力 的 混淆 矩阵 









































高 兴 生气 恶心 惊讶 伤心 中 性 
高 兴 76.5 0.0 1.5 12. 0 0.0 10. 0 
生气 0.0 90. 0 5.0 0. 0 4.0 1.0 
恶心 2.0 32. 5 34.5 6.5 3.0 21.5 
TAE 9.0 2.0 8.0 64. 5 1.5 15. 0 
fi 0.0 0.0 0.5 0.0 98. 0 1.5 
中 性 1.0 0. 0 2.5 0. 0 0.0 96. 5 


为 了 避免 误导 感知 ， 每 个 语音 情绪 音频 文件 使 用 一 个 文件 号 标记 ， 这 个 标记 与 
情绪 没有 关系 。 此 外 ， 文 件 编号 也 是 随机 的 ， 以 避免 对 任何 情绪 模式 的 预测 。 在 做 
出 适当 判断 前 ， 允 许 判 断 者 可 以 反复 听任 何 的 语音 情绪 音频 文件 。 

对 NAW 数据 集 的 人 类 认 知 表现 的 混 消 矩阵 见 表 2. 1。 在 这 里 可 以 看 出 ， 大 多 
数 判断 者 都 能 够 很 容易 地 以 76% 的 准确 率 来 识别 伤心 、 生 气 、 中 性 和 高 兴 。 其 次 
分 别 为 惊讶 有 64% 的 准确 率 ， 恶 心 只 有 34% 的 准确 率 。 恶 心 取得 了 非常 低 的 认可 ， 
这 表明 判断 者 没有 明确 地 定义 ， 他 们 可 能 会 把 恶心 感知 成 轻微 的 愤怒 ， 这 导致 较 高 
比例 的 愤怒 被 感知 。 

相似 的 ， 惊 讶 情绪 也 会 获得 很 低 的 感知 效果 ， 这 是 因为 判断 者 的 感知 混淆 了 ， 
他 们 大 多 数 把 高 兴 分 类 为 积极 的 惊讶 ， 或 者 恶心 分 类 为 消极 的 惊讶 。 伤 心 以 98% 
的 感知 准确 率 成 绩 成 为 准确 率 最 高 的 感知 情绪 ， 因 为 它 在 听觉 上 有 最 明显 的 特征 ， 
它 可 以 从 这 个 特点 中 被 观察 到 。 
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2.3 语音 情绪 识别 和 分 类 实验 


2.3.1 情绪 识别 实验 


进行 识别 实验 来 研究 我 们 所 提出 的 系统 在 鉴定 给 定语 音 段 方面 的 性 能 。 如 图 
2.2 所 示 ， 我 们 提出 的 系统 对 Berlin 数据 集 和 NAW 数据 集 分 别 可 以 产生 准确 率 范 
EIX 47.9% ~75.4% 861. 496 ~71.2% 。 

从 图 2. 2 可 以 看 出 ， 两 个 数据 集 的 最 大 和 最 小 精确 度 百 分 比 是 一 致 的 ， 其 中 伤 
心情 绪 有 最 高 的 准确 率 ， 而 高 兴 情 绪 精确 度 最 低 。 基 于 这 些 结果 ， 我 们 可 以 看 到 ， 
NAW 数据 集 的 结果 与 Berlin 数据 集 相 当 ， 使 用 MFCC 来 提取 特征 再 组 合 MLP 可 以 
得 到 合理 的 准确 率 性 能 。 这 表明 ， 我 们 所 提出 的 方法 在 语言 方面 具有 情绪 识别 的 
潜力 。 

2.3.2 理解 驾驶 员 的 情绪 

该 方法 接着 施加 到 一 个 预先 录制 的 驾驶 数据 ， 来 识别 驾驶 员 在 不 同 的 方案 中 的 
情绪 状态 。 驾 驶 员 的 情绪 状态 有 4 种 场景 ， 即 压力 、 笑 "PERI SAKE, TEXIH 
实验 中 进行 了 测试 。 驾 驶 员 在 驾驶 过 程 中 通过 手机 对 话 时 获得 压力 数据 ， 假 设 他 / 
她 在 专注 于 驾驶 和 同时 对 来 电 提 供 适 当 的 应 对 措施 之 间 ， 需 要 完成 多 个 任务 。 结 



























































见 表 2.2。 
80 
= 70 
At 
60 
Fi O Berlin 
50 
El NAW 
40 
生气 高 兴 伤心 中 性 
到 2.2 Berlin 和 NAW 数据 集 的 鉴定 结果 
表 2.2 实时 驾驶 数据 集 鉴定 结果 的 混淆 德 阵 
压力 (96) 大 笑 (96) 中 性 (96) 困倦 (% ) 
压力 55.6 19.9 13.3 11.2 
KE 22.3 57.0 12.1 8.6 
中 性 5.4 6.9 74.5 13.2 
困倦 8.5 7.4 17.6 66. 5 


从 表 2. 1 中 可 以 看 到 ,使 用 相同 的 驾驶 数据 ， 该 系统 至 少 可 以 识别 55. 696 , 
最 高 74. 5% 的 驾驶 员 的 情绪 状态 。 中 性 取得 了 最 高 的 准确 率 ， 压 力 获 得 了 最 低 的 
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准确 率 。 

为 了 对 所 提出 的 系统 性 能 有 更 好 的 理解 ， 将 3 个 数据 集 混合 ， 包 括 Berlin, 
NAW 和 驾驶 数据 集 的 ， 并 进行 了 识别 实验 。 由 于 大 笑 是 驾驶 员 很 高 兴 的 反应 ， 所 
以 我 们 认为 笑 是 快乐 情绪 的 一 个 子 集 。 识 别 结果 见 表 2.3。 我 们 可 以 清楚 地 看 到 ， 
压力 数据 以 只 有 39.3% 的 准确 率 取得 了 最 低 准确 率 ， 而 中 性 以 62. 3% 取得 了 最 高 
准确 率 。 

如 果 将 中 性 状态 从 数据 集中 移 除 ， 系 统 的 准确 率 将 会 提高 。 根 据 对 Schlosberg 
的 感情 空间 模型 的 理解 … ， 中 性 的 状态 是 语音 情绪 的 基础 ， 无 论 他 们 的 情绪 的 原 
始 轴线 是 什么 。 因 此 ， 如 果 我 们 可 以 把 中 性 从 结果 中 去 除 ， 纯 粹 的 情绪 可 以 在 处 理 
过 的 语音 中 提取 。 表 2. 4 的 混 消 矩阵 显示 了 中 性 被 去 除 后 渗 为 有 趣 的 结果 。 在 这 种 
情况 下 系统 的 准确 率 增 加 了 约 10% 。 

表 2.3 A Berlin, NAW 和 实时 驾驶 数据 集 鉴 定 结果 的 混淆 矩阵 

高 兴 (90) 伤心 (%) 中 性 (%) ”压力 (96) 生气 (%) ”困倦 (%) 



































高 兴 50.6 11.5 14.9 4.9 15.4 2.8 
伤心 12.7 59.5 15.4 1.0 9.4 2.1 
中 性 13.5 10.5 62.3 1.8 6.5 5.5 
压力 22.0 6.1 22.4 39.3 2.5 7.7 
生气 22.4 9.2 9.2 1.0 56. 4 2.2 
困倦 12.9 4.8 21.4 2.8 1.2 56.9 





表 2.4 不 带 中 性 的 结合 Berlin、NAW 和 实时 的 驾驶 数据 集 的 鉴定 结果 的 混淆 矩阵 


高 兴 (96) fit (96) 压力 (96) ^E (96) 困倦 (96) 











高 兴 59.4 13.5 5.8 18.1 3.2 
伤心 15.0 70.3 1:2 11.1 2.5 
压力 28.4 7.9 50.6 3.2 9.9 
生气 22. 4 9.2 1.0 56.4 2.4 
困倦 16.4 6.1 3.6 1.5 72.4 





2.3.3 语音 情绪 剖析 


根据 2. 2 节 中 提出 的 结果 ， 我 们 提出 了 对 数据 进行 语音 情绪 分 析 的 方法 ， 从 而 
可 以 发 现 语 音 情 绪 信 号 和 中 性 状态 之 间 的 相关 性 。 有 趣 的 是 ， 从 图 2. 3 中 我 们 注意 
到 ， 即 使 所 使 用 的 数据 是 不 同 的 ， 对 整个 数据 集 ， 相 同情 绪 的 模式 是 相似 的 ， 但 是 
在 一 个 数据 集中 可 以 很 容易 观察 到 不 同情 绪 的 区 别 。 

最 明显 的 例子 是 ， 虽 然 数据 是 完全 不 同 的 ， 但 是 所 有 这 3 个 数据 集 的 快乐 情绪 
的 分 析 图 都 有 十 字 图 案 。 图 2.3 也 表明 ， 对 于 我 们 来 说 ， 能 够 观察 到 语言 情绪 其 中 
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图 2.3 Berlin, NAW 和 驾驶 数据 集 的 语音 情绪 分 析 
a) Berlin 愤怒 b) Berlin 悲伤 c) Berlin 快乐 d) NAW 人 愤怒 e) NAW-SAD 
f) NAW 快乐 g) 驾驶 一 压力 h) 驾驶 一 告 昏 欲 睡 ”i) 驾驶 一 笑 





和 内 在 的 变化 是 可 能 的 ， 这 可 以 使 我 们 更 好 地 理解 这 些 文化 的 影响 从 而 全 面 提升 语 
音 情绪 的 识别 。 


2.4 小 结 、 结 论 和 未 来 的 工作 


语音 情绪 分 析 是 可 以 从 不 同 的 角度 研究 文化 内 和 器 文化 变化 的 有 效 工 具 。 它 可 
以 使 情绪 的 相互 作用 可 视 化 ， 提 供 重要 信息 ， 而 这 些 使 用 一 般 的 信息 分 析 工 具 ， 例 
如 语音 认 知 和 说 话 者 识别 是 无 法 观察 到 的 。 在 理解 这 些 分 类 ， 尤 其 是 在 提取 相关 的 
特征 以 及 相应 的 数据 处 理 方面 ， 需 要 进行 更 多 的 工作 ， 来 从 这 样 的 可 视 化 工具 中 受 
益 。 语 言情 绪 属 性 与 一 个 三 维 情绪 空间 模型 耦合 ， 可 能 能 够 对 驾驶 员 行 为 动态 提供 
一 个 更 好 的 理解 。 这 项 工作 也 说 明 驾 驶 员 动 作 和 情绪 之 间 有 很 强 的 相关 性 ， 这 些 可 
以 使 用 语言 信号 通过 经 验 来 测量 。 
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摘要 : 753R4T2548 5 AERA BH Fe ETA RA FRA ARE R, desá 
板 、 了 驱动 轮 等 而 不 同 。 在 这 项 研究 中 ,我 们 将 了 解 轰 驶 行为 信号 在 不 同 驾 驶 员 和 不 
同 驾驶 任务 之 间 有 什么 不 同 。 这 些 研究 所 显示 的 线索 被 用 来 统计 并 定义 驾驶 员 和 轰 
驶 状态 模型 。 本 章 给 出 了 基于 UYANIK 数据 库 的 实验 结果 。 通 过 对 加 速 和 制 动 结 
合 踏板 压力 的 分 类 ， 对 超过 23 位 驾驶 员 的 驾驶 状态 达到 了 57.3996 8138 3] XE, 75 
驶 员 数 量 减 少时 ， 驾 驶 状态 识别 系统 与 现实 生活 中 的 情景 更 加 吻合 。 对 1 个 组 3 个 
驾驶 员 的 驾驶 识别 率 计算 得 85.21% 。 针 对 有 任务 和 没有 任务 的 超过 10 个 驾驶 员 
的 驾驶 员 状 态 识别 ， 其 任务 识别 率 达 到 了 的 79.1390 。 驾 驶 行为 与 驾驶 员 过 去 的 动 
作 是 密切 相关 的 。 在 这 项 研究 中 ,我 们 从 过 去 的 驾驶 信号 中 研究 轰 驶 行为 的 预测 。 
我 们 提出 了 一 个 行为 预测 系统 ， 该 系统 执行 行为 信号 的 时 间 聚 类 ， 并 计算 每 个 时 间 
聚 类 的 线性 估计 。 使 用 隐藏 的 Markov 模型 (HMM) 进行 了 时 间 聚 类 。 实 验 结 果 显 
示 ， 分 散 注意 力 的 条 件 对 驾驶 行为 有 一 定 的 影响 ， 在 这 些 条 件 下 预测 误差 显著 增 
加 。 道 路 状况 也 对 驾驶 行为 预测 有 影响 。 

KER: SIAR; BREE; BRAMAN, BIAT, 驾驶 分 心 


3.1 简介 


在 人 机 交互 方面 的 近期 发 展 已 经 应 用 在 很 多 方面 。 在 这 些 应 用 中 ， 人 车 接口 在 
最 近 的 文献 被 广泛 研究 。 下 一 代 人 车 界面 可 能 会 使 用 语音 、 视 频 、 图 像 和 模拟 驾驶 
员 的 行为 信号 结合 人 的 生物 特征 识别 ， 来 提供 更 高 效 和 更 安全 的 车 辆 运行 。 此 外 ， 
驾驶 行为 信号 ， 如 踏板 信号 、 速 度 和 跟 车 距离 ， 会 给 驾驶 行为 状态 和 驾驶 员 的 认 知 
压力 /分 心 提供 重要 的 线索 。 

对 使 用 驾驶 行为 信号 的 驾驶 行为 模式 的 研究 已 经 投入 了 很 大 的 精力 。Kurahashi 
等 人 为 驾驶 行为 建 模 '""， 使 用 驾驶 行为 信号 来 量化 工作 量 因 素 。 名 古 屋 大 学 的 声 
H EE UD A 1999 年 以 来 已 经 开始 收集 多 模式 的 驾驶 行为 信号 ” 。 他 们 早期 的 
工作 是 研究 驾驶 行为 信号 的 倒 谱 分析 ” 和 为 跟 车 和 足 踏 操纵 模式 的 驾驶 行为 建 模 。 
最 近 ， 他 们 通过 进行 面谈 研究 了 险情 事故 ， 以 确保 在 发 生 事 故 钻 之 前 尽快 确定 加 
驶 行为 和 认 知 状态 。 基 于 生物 识别 和 蜀 驶 行为 信号 的 驾驶 员 识 别 已 经 在 一 个 多 模式 
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决策 融合 系统 中 进行 研究 。 

跟 车 数据 收集 和 建 模 也 已 经 在 不 同 的 研究 中 心 … 1 进行 了 研究 。 根 据 产生 的 行 
为 和 过 去 的 观测 来 预测 驾驶 员 未 来 的 行动 已 经 进行 了 研究 ， 用 来 模拟 智能 交通 运输 
系统 (ITS) ^" BUR, Tezuka 等 人 用 有 条 件 的 高 斯 模型 和 贝 叶 斯 网 络 ' 中 ， 通 过 变 
道 时 候 捕 获 时 间 序 列 的 转向 角 数 据 ， 来 研究 驾驶 行为 信号 的 预测 。Kishimoto 和 
Oguri 将 动态 贝 叶 斯 网 络 用 来 为 停止 行为 "9 的 推理 构建 一 个 行为 模型 。 他 们 发 现 ， 
利用 过 去 的 运动 对 预测 停止 概率 有 很 大 的 影响 。 在 市 区 行驶 的 情况 下 ， 可 靠 的 压力 
检测 的 多 模式 信号 处 理 系统 已 经 在 参考 文献 [9] 中 被 提出 。Marinova Devereaux, 
Hansman 研究 了 在 带 有 人 免 提 和 手持 的 手机 配置 "| 情况 下 ， 手 机 通话 对 在 不 同 层次 
认 知 的 驾驶 员 的 反应 时 间 和 情境 意识 的 影响 。 同 时 也 对 使 用 辅助 任务 的 方法 、 认 知 
工作 量 和 驾驶 经 验 、 实 地 研究 的 外 围 检 测 任 务 (PDT) 等 进行 了 探索 。 

在 基于 现实 的 大 型 数据 库 的 驾驶 行为 信号 处 理 方面 ,名古屋 大 学 CIAIR 中 心 
一 直 在 努力 进行 国际 研究 的 协调 2 。 经 过 研究 的 协调 ， 德 州 大 学 达拉斯 分 校 的 
UTDrive 收集 到 了 多 模式 驾驶 行为 数据 UTDrive 研究 了 驾驶 员 认 知 的 压力 /分 心 
来 适应 互动 系统 ， 从 而 提高 安全 性 。 同 样 ， 驾 驶 安全 联盟 ， 其 中 有 来 自 土耳其 学 术 
界 和 工业 界 的 合作 伙伴 ， 收 集 了 类 似 的 多 模式 驾驶 行为 资料 库 来 为 谨慎 驾驶 中 创 
造 条 件 。 

在 本 章 中 ， 作 为 驾驶 安全 联盟 的 一 个 合作 伙伴 ， 我 们 探讨 了 轰 驶 员 识别 、 驾 驶 
状态 识别 和 根据 不 同 的 认 知 的 压力 /分 心 条件 下 利用 驾驶 行为 信号 的 驾驶 行为 预测 。 

我 们 的 目的 是 去 寻找 并 检查 认 知 分 心 条件 下 对 驾驶 行为 的 影响 ， 并 询问 是 否 驾 
驶 行为 信号 对 每 一 位 驾驶 员 都 是 特征 明显 的 信息 。 我 们 研究 了 任务 识别 的 性 能 ， 并 
将 早期 的 研究 结果 公布 在 参考 文献 [17] 中 。 

在 本 章 中 ， 我 们 提出 了 对 以 下 3 个 主要 问题 的 贡献 : 

e 驾驶 员 识 别 : 用 行为 信号 对 一 个 敬 驶 员 进 行 识 别 是 一 个 最 有 趣 的 车 载 信 号 
处 理 的 问题 。 在 这 项 研究 中 ， 我 们 使 用 的 是 驾驶 行为 信号 ， 如 车 速 、 加 速 踏板 的 压 
力 、 制 动 踏板 压力 以 及 与 进行 驾驶 员 识 别 的 前 车 之 间 的 距离 。 首 先 ， 我 们 研究 了 这 
些 信号 的 特点 ， 并 提出 一 组 选 定 的 驾驶 统计 数据 ， 然 后 我 们 定义 了 一 个 统计 驾驶 员 
识别 系统 并 通过 实验 来 评估 这 个 系统 。 

e 驾驶 状态 识别 : 分 心 条件 对 驾驶 员 造 成 严重 的 安全 问题 。 有 研究 表明 ， 近 
80% 的 交通 事故 的 发 生 是 由 于 驾驶 员 注 意 力 不 集中 ， 这 通常 是 注意 力 分 散 的 结 
车 辆 的 导航 系统 和 其 他 服务 引进 了 许多 辅助 驾驶 任务 ， 可 能 增加 事故 风险 。 因 此 ， 
开发 一 种 干扰 检测 方法 来 减少 分 心 的 影响 ， 对 车 载 系统 将 是 非常 有 益 的 。 在 这 项 研 
究 中 ， 驾 驶 实验 在 一 些 干 扰 环境 下 完成 ， 可 以 认为 是 如 上 所 述 的 辅助 驾驶 任务 。 这 
些 任 务 是 手机 对 话 ， 包 括 路 线 导 航 、 网 上 银行 、 在 线 乘客 交谈 以 及 招牌 和 车 牌 阅 
读 。 我 们 研究 了 在 不 同 驾 驶 任务 时 芍 驶 行为 信号 的 统计 特性 ， 这 些 任务 定义 为 分 心 
条 件 下 。 然 后 ,我 们 尝试 使 用 统计 分 类 检测 分 心 条 件 。 
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e 驾驶 员 行 为 识别 : 在 交通 事故 中 ， 人 为 因素 发 挥 了 很 大 的 作用 。 预 测 驾驶 
行为 是 一 个 重要 的 问题 ， 因 为 它 对 减少 人 为 造成 的 事故 有 显著 效果 。 各 驶 员 的 行为 
与 过 去 的 动作 密切 相关 ， 所 以 在 这 项 研究 中 ， 我 们 用 驾驶 员 过 去 的 行为 信号 构建 一 
个 各 驶 员 的 驾驶 行为 预测 模型 。 驾 驶 行为 预测 模型 包括 隐 含 HMM 的 时 间 聚 类 和 每 
个 时 间 片 段 的 最 小 均 方 误差 (MMSE) 估计 。 我 们 还 研究 了 道路 条 件 和 分 散 注意 力 
的 条 件 对 预测 模型 的 影响 。 




















3.2 ”驾驶 行为 信号 特征 


驾驶 信号 在 驾驶 员 怎 样 和 在 什么 条 件 下 使 用 车 辆 控制 单元 ， 如 踏板 、 了 驱动 
轮 等 方面 不 同 。 我 们 的 目标 是 在 选 定 的 驾驶 员 中 对 个 体 差 异 进行 建 模 ， 并 通过 
使 用 加 速 踏板 的 压力 、 制 动 踏 板 的 压力 、 车 速 以 及 这 些 信号 的 融合 来 识别 驾 
驶 员 。 

我 们 也 关注 跟 车 距离 。 在 不 同 的 分 散 注 意 力 的 条 件 下 ， 人 与 人 的 驾驶 行为 特 
征 不 同 。 为 了 检验 这 些 分 散 注意 力 的 条 件 的 影响 ,我 们 将 了 解 驾 驶 行为 信号 怎样 
因 驾 驶 任务 的 不 同 而 不 同 。 该 研究 的 统计 学 上 明显 的 线索 被 用 来 定义 驾驶 状态 模 
型 。 本 节 介 绍 来 自 UYANIK 数据 库 的 驾驶 行为 信号 的 一 般 特 征 和 统计 ， 这 些 驾驶 
行为 信号 的 特征 表示 ,驾驶 员 和 驾驶 环境 的 统计 聚 类 、 识 别 框架 和 四 驶 行为 
预测 。 


3.2.1 数据 收集 


驾驶 行为 数据 通过 土耳其 的 驾驶 保护 联盟 用 配备 了 各 种 传感器 的 轿车 作为 测试 
车 ，UYANIK 提供 。UYANIK 数据 库 包 括 同步 的 视听 制品 、CAN 总 线 读数 、 踏 板 传 
感 器 记录 、180° 激 光 测 距 仪 和 XYZ 加 速度 仪器 的 记录 。 

数据 收集 路 线 长 约 25km， 耗 时 约 40min, TE Ayazaga ITU 校园 的 OTAM 研究 中 
心 开始 和 结束 。 它 包括 两 个 1.5km 的 非常 繁忙 的 城市 部 分 ， 随 后 的 TEM 高 速 公路 
交通 缓和 很 多 。 接 下 来 ， 路 线 穿 城 而 过 ， 然 后 又 回 到 了 ITU 校园 OTAM。 最 后 一 段 
当地 的 交通 非常 繁忙 。 所 有 驾驶 员 的 路 线 都 相同 ， 然 而 道路 状况 可 能 会 有 所 不 同 ， 
这 取决 于 在 伊斯坦布尔 的 交通 堵塞 和 天 气 。 我 们 使 用 UYANIK 数据 库 的 一 个 子 集 ， 
包括 20 名 男性 和 3 名 女性 驾驶 员 的 驾驶 行为 信号 记录 会 话 。 

在 UYANIK 数据 库 中 有 4 个 主要 任务 : 中 “参考 驾驶 ”， 其 中 包括 没有 特定 的 
EWES; 四 “手机 对 话 ”， 其 中 包括 在 线 银行 应 用 程序 和 导航 对 话 ; 四 “招牌 阅 
读 ”， 驾 驶 员 大 声 读 出 道路 标志 和 车 牌 ; 由 “与 乘客 对 话 ”， 鸭 驶 员 与 车 上 乘客 进 


行 交流 。 
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3.2.2 驾驶 行为 信号 


我 们 定义 加 速 和 制 动 踏板 压力 信号 、 来 自 CAN 总 线 的 速度 以 及 来 自 激光 测 距 
仪 的 跟 车 距离 为 驾驶 行为 信号 。 加 速 、 制 动 和 速度 信号 都 是 在 32 Hz PRE, HOt 
扫描 仪 每 两 秒 扫 描 180°* 。 驾 驶 行为 信号 的 样本 如 图 3.1 所 示 。 

车 辆 前 面 的 激光 测 距 仪 记录 由 水 平和 垂直 距离 组 成 的 二 维 (x, y) 数据 。 图 
3.2 显示 了 在 2007 年 4 月 6 日 下 午 12: 56 记 录 的 一 位 选 定 驾驶 员 的 激光 扫描 读数 
和 照片 。 右 边 的 卡车 在 -200 ~ 800cm 之 间 ， 白 卡车 在 22m 之 外 ， 下 一 个 车 道 (£ 
侧 ) 的 汽车 领先 大 约 23ml5 , 
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图 3.1 XÁ UYANIK 数据 库 的 一 位 鸭 驶 员 的 芍 驶 行为 信号 





所 有 23 个 罗 驶 员 在 高 速 公 路 和 城市 交通 环境 下 的 驾驶 行为 信号 的 直方 图 如 图 
3.3 所 示 。 这 表明 ， 在 高 速 公路 上 ， 癌 驶 员 很 少 使 用 制 动 踏板 ， 而 使 用 加 速 踏 板 较 
多 。 激 光 能 扫 过 的 最 大 范围 约 为 89m， 但 一 般 大 部 分 的 驾驶 员 在 高 速 公路 上 都 会 超 
过 这 个 距离 。 

同时 ， 取 上 自 两 个 随机 选择 的 罗 驶 员 的 驾驶 行为 信号 直方 图 如 图 3.4 to, BS BR 
员 在 该 图 的 左 侧 ， 喜 欢 驱动 更 快 ， 而 很 少 用 制 动 踏板 。 此 外 ， 他 或 她 一 般 在 所 有 道 
路 条 件 下 与 前 面 的 车 辆 保持 距离 ， 而 其 他 的 驾驶 员 更 喜欢 更 近 地 跟 随 一 辆 车 ， 他 或 
她 面临 交通 堵塞 时 使 用 制 动 踏板 较 多 。 这 些 差异 是 驾驶 员 之 间 的 驾驶 行为 信号 不 同 
的 明显 迹象 。 
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图 3.3 高 速 公路 (E) fs 
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43.4 两 个 驾驶 员 的 驾驶 行为 信号 直方 图 〈( 鸭 驶 员 一 在 左 侧 ， 驾 驶 员 二 在 右 侧 ) 
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3.3 驾驶 行为 模型 


模拟 笃 驶 员 的 驾驶 行为 对 提高 驾驶 员 和 行人 的 安全 是 非常 重要 的 。 驾 驶 员 认 
证 、 车 辆 的 早期 预警 系统 和 为 安全 起 见 的 其 他 技术 可 以 被 指定 为 驾驶 员 鸭 驶 行为 建 
模 的 应 用 领域 。 驾 驶 行为 ， 本 身 就 是 一 个 循环 过 程 "'" 。 驾 驶 员 通 过 考虑 道路 环境 
来 确定 要 采取 的 行动 ， 并 操作 加 速 或 制 动 踏板 。 和 车辆 的 速度 根据 驾驶 员 的 操作 和 与 
前 车 的 距离 (道路 环境 ) 改变 ， 且 它 也 根据 车 辆 的 状态 改变 。 

在 本 节 中 ， 我 们 讨论 特征 提取 、 轰 驶 员 识 别 和 驾驶 员 行 为 信号 预测 ， 还 有 他 们 
对 蜀 驶 员 行 为 建 模 的 作用 。 蜀 驶 员 识 别 基于 使 用 统计 模型 来 对 驾驶 特征 矢量 的 认 
知 。 我 们 的 模型 使 用 训练 和 测试 程序 来 设计 : 在 训练 部 分 ， 我 们 的 算法 学 习 来 自 一 
个 训练 集 的 数据 的 统计 特性 ， 训 练 集 通过 提取 驾驶 员 的 行为 特征 构建 ， 在 测试 部 
分 ,该 算法 的 准确 率 用 一 个 测试 集 测量 ， 它 与 训练 集 完全 不 同 。 


3.3.1 特征 提取 


采用 了 一 个 预 处 理 步 骤 来 去 除 直 流 分 量 ， 是 对 包括 加 速 踏板 的 压力 、 制 动 踏 板 
压力 和 车 辆 速度 驾驶 信号 的 高 通 滤波 。 然 后 ， 应 用 倒 频 谱 分 析 ， 这 是 公认 的 源 信号 
/过 滤 的 分 离 方法 ， 已 被 用 于 驾驶 行为 信号 。 

倒 频谱 分 析 从 驾驶 行为 的 信号 捕捉 重要 信息 。 在 驾驶 员 建 模 过 程 中 ， 用 表示 为 
频谱 包 络 线 的 驾驶 者 模型 过 滤 加 速 或 制 劲 踏板 信 叶 。 踏 板 操作 信和 号 的 频谱 包 络 表 示 
了 踏板 操作 模式 的 差异 。 这 些 频 谱 包 络 在 相同 的 驾驶 员 那 里 是 相似 的 ， 不 同 的 驾驶 
员 是 不 同 的 。 

在 这 项 研究 中 ， 我 们 为 以 32Hz 进行 采样 的 加 速 、 制 动 踏板 的 压力 和 速度 信号 
提取 倒 频 谱 功 能 。 在 超过 800ms 的 窗口 中 ， 每 96ms 帧 提取 一 次 倒 谱 特征 。 倒 谱 特 
征 被 定义 为 带 通 滤波 后 对 数 振幅 谱 离散 余弦 变换 的 第 天 系数 ， 即 

f, =DCT {BPF {log| F {x, (n+kT)}|}} (3.1) 
式 中 /一 一 帧 指数 ; 
x, (n+k7T) 一 一 持续 时 间 7 的 窗口 信号 。 

为 了 消除 高 频 噪声 ， 对 制 动 信号 进行 截止 频率 为 1 ~ 13Hz 的 带 通 滤波 ， 对 加 
速 和 速度 信号 进行 截止 频率 为 1 ~ 6. 5Hz 的 带 通 滤波 。 特 征 矢量 的 维 数 被 设置 为 
天 =10。 


3.3.2 驾驶 员 识 别 模型 


识别 一 位 驾驶 员 和 他 /她 的 驾驶 行为 的 能 力 与 他 /她 怎样 踩 加 速 和 制 动 踏板 有 
关 。 我 们 用 高 斯 混合 模型 (GMM) 来 模拟 这 些 踏 板 操作 模式 的 统计 性 质 。 针 对 入 
类 识别 问题 的 最 大 后 验 概 率 方法 需要 计算 每 一 类 ,的 条 件 概率 已 (A,1 f), n=l, 
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，N, 是 给 定 的 特征 矢量 ， 代 表 一 个 未 知 类 别 的 样品 数据 。 另 一 种 方法 是 采用 
最 大 伺 然 解决 它 最 大 化 了 类 别 条 件 概 率 ， 即 
A* = arg max logP (flA,) (3.2) 
此 外 , 来自 不 同 分 类 的 似 然 度 评分 可 以 使 用 加 权 求 和 规则 在 决策 层级 (决策 
融合 ) 结合 ， 即 





à” = arg max 2 oP (fi 1A, ) (3.3) 
RP a <a, <1 ER k WYRM, A Yo, = 1。 


类 别 条 件 概率 的 计算 需要 事先 的 建 模 步骤 ， 这 需要 为 有 效 训练 数据 的 每 个 类 别 
A,， n=1,，…，,，N， 伟 算 一 个 特征 矢量 的 概率 密度 分 布 函数 。 类 别 条 件 概 率 密度 函 
数 使 用 高 斯 混合 密度 来 建 模 : 

















P(f\A,) = Yon m,,C,) (3.4) 
式 中 mf C, 一 一 第 大 个 混合 的 平均 矢量 和 协 方差 矩阵 ; 
M 混合 的 总 数 。 





3.3.3 驾驶 员 行 为 预测 


我 们 提出 了 一 个 驾驶 员 行 为 的 预测 系统 ， 该 系统 执行 行为 信号 的 时 间 聚 类 ， 并 
计算 每 个 时 间 群 集 的 线性 估计， 在 参考 文献 [15] 的 工作 的 基础 上 。 时 间 聚 类 用 
隐 HMM 进行 。 在 每 一 个 时 间 段 内 ， 从 所 有 行为 信号 中 N 个 最 近 的 样本 里 ， 通 过 线 
性 的 估计 来 预测 当前 的 驾驶 行为 样本 。 预 测 信号 与 实际 信号 的 一 臻 性， 有 望 进一步 
了 解 驾 驶 的 质量 。 在 预测 模型 中 ， 采 用 了 制 动 、 加 速 踏板 和 速度 信 导 。 预 测 驾驶 行 
为 流程 如 图 3. 5 所 示 。 

训练 


驾驶 行为 数据 


测试 
















HMMH} H R% 





通过 维特 比 的 集群 监测 预报 误差 


il 


线性 预测 


图 3.5 轰 驶 行为 预测 系统 流程 


首先 ， 我 们 建立 了 一 个 使 用 HMM 结构 的 所 有 驾驶 信号 的 时 间 聚 类 分 析 模 型 。 
然后 ， 我 们 采用 线性 预测 ， 来 预测 所 需 的 时 间 段 内 的 驾驶 行为 信号 。 状 态 序列 定义 
了 时 间 段 的 边界 ， 它 通过 维特 比 算法 来 决定 。 在 每 个 部 分 中 ， 我 们 实施 线性 预测 
分 析 ， 来 从 六 个 最 近 的 驾驶 行为 样本 中 估计 当前 的 罗 驶 行为 样本 。 我 们 构造 特 
征 矢量 d(n) 2 [b(n), gn), v(n)], AP b, gy v PRICK M tl HBB 
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的 压力 信号 、 加 速 踏板 的 压力 信号 和 相应 时 间 段 的 速度 信号 中 直接 抽取 的 样 
本 。 通 过 结合 驾驶 员 的 驾驶 行为 样本 中 了 个 过 去 的 样本 ， 构 建 了 一 个 时 间 特 征 


矢量 





x,= [d(n-1), d(n-2), =, d(n-p)] (3.5) 
在 时 刻 n MRA BT A fios He FE MMSE 预报 器 指定 为 
y(n) =y + Cy Cy (x, 一 无) (3.6) 





式 中 7 (n) 一 一 要 估计 的 驾驶 行为 信号 样本 ; 
7 一 一 平均 的 驾驶 行为 信号 ; 
x 一 一 平均 的 时 间 特 征 矢量 ; 
Ca 和 CR 一 一 互相 关 和 自 相 关 冰 数 。 
驾驶 行为 信号 y(n) 可 以 作为 制 动 踏板 的 压力 、 加 速 踏板 的 压力 和 速度 信号 中 
的 任意 一 个 。 注 意 ， 最 小 均 方 误差 (MSE) 的 计算 公式 为 
MSE =E] || y, -7, | (3.7) 
式 中 yy 一 一 一 个 序列 的 驾驶 行为 信号 。 





3.4 实验 结果 


在 实验 的 评价 中 ,使 用 了 两 个 来 自 UYANIK 数据 库 的 子 集 。 第 一 个 子 集 ， 即 
U-DRIVER， 包 括 23 名 驾驶 员 ， 用 于 进行 驾驶 员 识 别 评价 (3 位 驾驶 员 没 有 参与 跟 
车 任务 ， 因 为 他 们 没有 激光 测 距 信息 ) 。 第 二 个 子 集 ， 即 U- TASK， 包 括 10 位 驾驶 
员 参 与 驾驶 任务 识别 。 特 定 任 务 域 的 驾驶 员 识 别 性 能 ， 依 赖 于 关于 该 域 准确 的 训练 
数据 库 选 择 。 因 此 ， 为 了 达到 更 真实 的 鉴定 结果 ， 我 们 把 U-DRIVER 分 为 3 个 大 
组 。 假 设 一 部 汽车 是 被 有 限 数量 的 不 同 驾驶 员 普 遍 使 用 的 ， 这 些 大 组 中 的 每 一 个 被 
分 在 20 个 小 组 中 ， 分 别 包 括 3、4 和 5 位 驾驶 员 。 所 有 这 60 个 小 组 的 驾驶 员 的 识 
别 独 立 进行 。 此 外 ， 通 过 这 个 子 集 可 以 预测 驾驶 员 的 行为 信号 。4 个 主要 任务 是 
在 U-TASK 子 集 转录 。 在 所 有 驾驶 员 和 任务 鉴定 评 佑 中， 我 们 使 用 了 5 倍 交叉 验 
证 ， 其 中 可 用 的 数据 库 被 分 为 5 个 等 长 的 段 (第 一 个 段 在 驾驶 会 话 的 开端 开始 ， 
第 二 段 跟 着 第 一 段 的 结束 开始 ， 其 他 遵循 同样 的 过 程 ) ， 按 照 “ 留 一 法 ”的 训练 
和 测试 计划 进行 评 佑 。 在 驾驶 员 的 行为 预测 评估 中 ， 我 们 使 用 4 倍 交叉 验证 。 


3.4.1 驾驶 员 识 别 的 结果 


每 个 驾驶 员 具 有 不 同 的 驾驶 行为 特征 。 不 同 的 驾驶 员 在 如 何 使 用 加 速 和 制 动 踏 
板 以 及 他 们 跟 车 时 保持 多 少 距离 方面 的 表现 都 不 同 。 如 前 所 述 ， 加 速 、 制 动 和 速度 
信号 的 采样 频率 都 为 32Hz， 倒 谱 特 征 在 超过 800ms (25 个 样本 ) 的 窗口 以 每 96ms 
一 帧 (3 个 样本 ) 提取 。 图 3.6 所 示 为 U- DRIVER 数据 库 的 GMM 分 类 器 的 驾驶 员 
识别 性 能 ， 包 含 了 23 位 驾驶 员 制 动 踏板 的 压力 、 加 速 踏 板 的 压力 和 速度 信号 ， 这 
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些 信 号 使 用 了 不 同 数量 的 混合 组 分 倒 谱系 数 。 为 了 识别 的 目的 ， 使 用 不 同 的 决策 窗 
口 长 度 ， 计 算 30s/ 帧 的 特征 。 由 于 在 高 速 公路 上 不 经 常 使 用 制 动 踏板 ， 使 用 制 动 
踏板 的 驾驶 员 识别 只 用 在 城市 中 行驶 记录 进行 。 

如 图 3. 6 所 示 ， 加 速 踏板 的 压力 信号 产生 比 制 动 踏板 压力 信号 更 好 的 性 能 。 这 
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图 3.6 加 速 踏板 的 压力 、 制 动 踏板 的 压力 和 速度 信号 的 驾驶 员 识别 率 
a) 加 速 踏板 的 压力 b) 制 动 踏板 的 压力 c) 速度 信号 的 驾驶 员 识 别 率 
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可 能 是 由 于 驾驶 员 更 频繁 地 使 用 加 速 踏板 。 所 有 行为 信号 最 好 的 鉴定 结果 是 通过 有 
16 个 混合 、 超 过 8 ~ 10min 的 决定 窗口 使 用 GMM 分 类 器 获得 的 。 单 峰 驾 驶 员 识别 
率 都 低 于 60% ， 这 意味 着 驾驶 员 识别 系统 有 改进 的 余地 。 

分 类 器 决策 与 不 同 的 驾驶 员 行为 信号 的 融合 ， 可 以 提高 单 峰 的 识别 率 。 我 们 研 
究 了 分 类 器 与 加 速 、 制 动 和 速度 信号 的 融合 ， 并 识别 具有 改进 识别 率 的 融合 结构 。 
图 3.7 给 出 的 是 在 决定 窗口 大 小 不 同时 ， 驾 驶 员 识 别 系统 决策 融合 的 结果 。 分 类 器 
在 决策 融合 中 的 最 优 权重 针对 一 个 训练 数据 段 通 过 实验 设 定 。 得 到 的 权重 在 制 动 
(B) MIRE (C) 的 融合 时 设置 为 a, =0.77， 在 速度 (V) 和 加 速 (C) 的 融合 中 
a, =0.79。 得 到 的 最 好 识别 结果 是 69. 5% ， 它 是 通过 使 用 16 种 GMM 混合 时 制 动 
(B) FIE (G) 踏板 压力 信号 的 融合 。 
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图 3.7 加 速 踏板 压力 + 制 动 踏板 压力 以 及 加 速 踏板 压力 + 
速度 的 决策 融合 的 驾驶 员 识别 率 
a) 加 速 踏板 压力 + 制 动 踏板 压力 b) 加 速 踏板 压力 + 速度 
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可 用 于 所 有 模式 的 最 好 的 方案 总 结 如 图 3. 8 所 示 。 从 这 些 结果 中 我 们 可 以 观察 
到 ， 决 策 融 合 方法 显著 地 提高 了 系统 性 能 。 
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[8 个 混合 m 16 个 混合 口 32 个 混合 
图 3.8 单 峰 和 多 模式 分 类 器 的 驾驶 员 识别 率 比 较 





我 们 还 研究 了 驾驶 员 识 别 问 题 的 跟 车 距离 测量 。 跟 车 的 距离 测量 使 用 激光 
测 距 仪 收集 ， 它 每 2s 扫描 180° ， 在 每 一 个 角度 测量 最 近 的 对 象 的 距离 。 当 激 
光 测 距 仪 为 90°* 时 ， 获 得 与 前 面 车 辆 的 距离 。 Cn he ee 
是 80m， 大 部 分 驾驶 员 在 高 速 公路 和 双向 道路 上 都 超过 这 个 距离 ， 我 们 只 
单 向 道路 上 的 跟 车 距离 信号 。 对 于 单 向 道路 ， 每 位 驾 
为 4min。 

图 3.9 显示 了 针对 包括 了 20 位 驾驶 员 在 不 同 测试 长 度 的 信号 的 U-DRIVER 数 
据 库 中 的 车 辆 跟 车 距离 信号 的 鉴定 结果 。 由 于 该 任务 的 长 度 相 当 短 ， 选 择 决 定 窗 口 
的 大 小 是 非常 重要 的 。 对 16 个 混合 CMM 分 类 器 ， 采 用 150s 长 的 决定 窗口 ， 获 得 
识别 的 最 佳 性 能 为 45% 。 
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图 3.9 跟 车 距离 信号 的 驾驶 员 识 别 率 





由 于 加 速 踏板 由 各 驶 员 直 接 操 作 ， 它 提供 了 鉴别 芍 驶 员 特 性 的 最 好 特征 。 由 于 
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与 前 车 的 距离 和 车 速 是 驾驶 员 踏 板 操作 的 结果 ， 仅 使 用 这 些 特征 来 进行 识别 ， 获 得 
的 效果 较 差 。 

在 现实 生活 中 ， 一 辆 车 一 般 只 有 几 个 驾驶 员 使 用 。 因 此 ， 可 以 减少 驾驶 员 的 
数量 来 研究 驾驶 员 识 别 系统 的 性 能 。 数 据 集 被 分 成 3 个 大 组 ， 由 20 个 分 别 包括 
3. 4, 5 位 驾驶 员 的 不 同 小 组 组 成 。 我 们 采用 8min 长 度 的 决定 窗口 以 及 相同 的 
16 个 混合 CMM 分 类 器 ， 在 早期 的 实验 中 , 已 经 观察 到 它们 可 以 实现 较 好 的 识 
别 率 。 

通过 使 用 5 倍 交 叉 验 证 来 为 每 个 子 组 进行 驾驶 员 识 别 任 务 ， 并且 评估 所 有 3 个 
大 组 的 平均 驾驶 员 识 别 率 。 图 3. 10 显示 了 使 用 不 同 的 特征 下 ， 每 个 组 的 平均 识别 
性 能 。 在 3 位 驾驶 员 中 ,使 用 加 速 (G) 和 制 动 (B) 的 组 合 踏板 压力 信号 ， 获 得 
了 85.21% 的 成 功率 。 
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目 1 组 (3 位 驾驶 员 ) m 2 组 (4 位 驾驶 员 ) 口 3 组 (5 位 驾驶 员 ) B 所 有 驾驶 员 





图 3.10 不 同 组 的 驾驶 员 的 驾驶 员 识 别 率 比 较 


3.4.2 车 况 鉴定 结果 


在 本 节 中 ， 我 们 研究 分 散 注 意 力 的 条 件 对 驾驶 表现 的 影响 ， 并 开发 一 种 技 
AR, 来 表征 驾驶 员 在 不 同 条 件 、 不 同 任务 中 鸭 驶 员 的 压力 水 平 。 在 UYANIK 数据 
库 中 ， 有 将 近 一 半 的 驾驶 测试 中 都 包括 了 具体 的 任务 。 驾 驶 任务 包括 手机 对 话 、 
与 乘客 对 话 以 及 招牌 阅读 ， 预 期 这 些 任务 会 导致 认 知 参与 的 缺乏 。 任 务 的 细节 描 
述 如 下 : 

e 没有 任务 : 驾驶 员 没 有 任何 任务 进行 驾驶 。 

e 招牌 阅读 : 驾驶 员 在 驾驶 过 程 中 大 声 阅读 标识 /招牌 上 的 字 。 

。 手机 对 话 : 通过 手机 导航 的 指导 ,驾驶 员 向 一 个 不 熟悉 的 地 方 前 进 。 此 外 ， 
网 上 银行 的 申请 也 通过 手机 完成 。 
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e 与 乘客 对 话 : 驾驶 员 与 车 上 的 乘客 对 话 。 

为 了 研究 驾驶 行为 信号 来 区 分 不 同 的 驾驶 任务 ， 建 立 了 一 个 驾驶 任务 识别 系统 
并 执行 U- TASK 数据 库 的 识别 性 能 分 析 。 为 了 任务 识别 ， 计 算 每 Is 长 度 帧 的 倒 谱 
特征 。 图 3. 11 显示 了 不 同 驾 驶 任务 条 件 下 加 速 踏 板 压力 信号 的 直方 图 。 能 够 观察 
到 参考 驾驶 与 带 有 任务 的 驾驶 之 间 统 计 上 的 差异 。 但 是 ， 特 定 的 驾驶 任务 直方 网 ， 
特别 是 用 手机 和 与 乘客 对 话 的 直方 图 彼此 很 接近 。 
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图 3. 11 参考 驱动 下 的 加 速 踏板 压力 信号 (左上) 、 手 机 对 话 (右上 )、 
招牌 阅读 〈 左 下 ) 以 及 与 乘客 的 对 话 〈 右 下 ) 的 直方 图 
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我 们 首先 考虑 一 个 两 阶 分 类 系统 来 识别 参考 驾驶 和 任务 驾驶 。 期 望 两 类 识别 系 
统 能 够 显示 分 散 注 意 力 的 条 件 是 否 影响 驾驶 性 能 。 在 U- TASK 数据 集中 ， 参 考 驾 驶 
持续 190min (所 有 数据 的 47.8% ) ， 而 任务 驾驶 持续 时 间 为 207. Smin (所 有 数据 
的 52.2% ) 。 为 了 评估 任务 识别 ， 我 们 使 用 16 个 混合 GMM 分 类 器 和 5 倍 交 叉 验 证 
分 类 。 

使 用 加 速 和 制 动 踏板 压力 信号 的 分 类 器 ， 在 图 3. 12 中 给 出 了 在 不 同 的 决 
定 窗口 大 小 下 决策 融合 的 平均 识别 率 。 最 好 的 情况 是 采用 了 360s 的 决定 窗口 
完成 。 

表 3. 1 列 出 了 这 种 情况 下 每 类 的 识别 率 ， 在 此 表 中 ， 最 后 一 列 给 出 了 数据 库 中 
事件 的 现 有 参考 分 布 。 通 过 使 用 加 速 和 制 动 踏板 信号 的 融合 ， 以 93. 2% 的 成 功率 
识别 了 参考 驾驶 会 话 ， 以 72. 5% 的 成 功率 识别 了 有 特定 任务 的 驾驶 会 话 。 使 用 加 
速 和 制 动 信号 的 16 个 混合 GMM 分 类 器 的 融合 ,平均 任务 与 无 任务 识别 结果 为 
83.3% 。 需 要 注意 的 是 ， 这 些 识别 率 显 著 高 于 可 能 出 现 的 均匀 分 布 随机 分 类 的 
表现 。 

同时 也 考虑 了 从 驾驶 行为 信号 中 识别 单个 任务 。 在 一 个 特定 任务 下 的 所 有 会 话 
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中 ， 手 机 对 话 持续 97. 5min (所 有 带 有 任务 数据 驾驶 的 47. 56% ) ， 与 乘客 的 谈话 持 
4E 87. 5min (所 有 带 有 任务 数据 驾驶 的 42.68% ) ， 招 牌 和 许可 证 板 的 阅读 持续 
20min (所 有 带 有 任务 数据 驾驶 的 9.76% )。 为 了 评估 任务 识别 ， 为 分 类 使 用 16 个 
混合 GMM 分 类 器 和 5 倍 交叉 验证 。 


有 任务 和 没有 任务 
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决定 窗口 大 小 /s 
一 一 制 动 一 一 加 速 制 动 + 加 速 (xc-0.77) 
图 3. 12 ”使 用 加 速 和 制 动 踏板 压力 信号 分 类 器 的 平均 任务 识别 率 
和 不 同 决策 窗口 大 小 的 决策 融合 
表 3.1 360s 决策 窗口 的 16 个 混合 GMM 分 类 器 的 加 速 
(GC), AIZ) (B)、 加 速 和 制 动 (G +B) MA, BA 
随机 (R) 分 类 的 有 任务 和 没有 任务 的 识别 率 (96) 
G B G+B R 
没有 任务 91.1 76.6 93.2 52.5 
有 任务 71.6 61.9 72.5 47.8 
平均 81.8 69.6 83.3 50.1 





表 3. 2 为 最 好 的 情况 下 每 个 类 的 识别 率 。 通 过 使 用 加 速 和 制 动 踏板 信号 的 融 
合 ， 手 机 对 话 任务 识别 率 为 58.5% ， 招 牌 阅读 为 23% ， 与 乘客 对 话 为 52. 6% 。 
在 具有 加 速 和 制 动 信号 的 16 个 混合 GMM 的 分 类 器 ， 且 决策 窗口 为 60s 的 情况 
下 ， 得 到 的 平均 任务 识别 结果 为 52.7% 。 观 察 到 识别 率 要 高 于 所 有 任务 的 随机 


类 型 。 
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表 3.2 60s 决策 窗口 的 16 个 混合 GMM 分 类 器 的 加 速 (CG)、 制 动 (B), 
加 速 和 制 动 (G +B) BA, SSRI (R) 分 类 的 任务 识别 率 (96) 











G B G+B R 

用 手机 对 话 56.4 49.7 58.5 47.6 
招牌 阅读 17.5 32.5 25.0 9.7 
与 乘客 对 话 50.3 44.1 52.6 42.7 
平均 50.0 45.7 52.7 41.8 





3.4.3 驾驶 行为 预测 的 结果 


我 们 使 用 U- DRIVER 数据 库 来 评估 驾驶 员 的 行为 预测 。 此 外 ， 分 析 了 认 知 分 
心 条 件 对 预测 驾驶 员 行 为 的 影响 。 为 了 达到 这 个 目的 ， 使 用 转录 的 U- TASK 数据 
库 。 在 驾驶 行为 预测 中 ， 对 所 有 的 估计 实 验 使 用 了 4 倍 交 叉 验 证 。4 倍 交 叉 验 证 的 
4 个 分 区 是 通过 HMM 聚 类 ， 由 同样 数目 的 数据 段 构成 。 由 于 这 些 段 的 长 度 是 不 相 
等 的 ， 对 所 有 驾驶 员 ， 测 试 /训练 数据 的 比值 随 着 时 间 的 分 布 是 不 同 的 。 

在 由 HMM 集群 构造 的 每 
一 个 时 间 段 ， 从 w 个 最 近 的 驾 
驶 行为 样本 中 ， 对 当前 的 驾驶 
行为 样本 执行 MMSE 估计 。 通 
过 实验 发 现 ， 最 近 的 估计 样本 
的 最 佳 数目 为 来 自 速度 信号 的 
6 个 样本 , 来自 加 速 信号 的 
个 样本 和 来 自制 动 信号 的 一 个 
样本 。 接 着 研究 了 HMM 类 状 
态 数目 的 影响 。 图 3. 13 所 示 为 
对 训练 和 测试 数据 、HMM 结构 
状态 数目 与 预测 误差 之 间 的 浮 
数 关系 。 选 择 3 状态 的 HMM 结 
构 作 为 驾驶 行为 信号 分 类 的 适 
宜 模型 。 

每 个 时 间 段 的 MMSE 是 在 图 3.13 WHERE HMM Zi fA 
两 种 不 同 的 场景 下 进行 的 。 在 第 一 个 场景 中 ， 我 们 使 用 行为 信号 的 直接 样本 ， 在 每 
个 估计 步骤 中 ， 它 是 传感器 实际 的 最 近 读 数 。 在 第 二 种 情况 下 ， 在 每 个 时 间 集 群 
内 ， 开 始 使 用 最 近 的 实际 样本 ， 但 接着 用 估计 的 样本 来 估计 即将 到 来 的 样本 。 因 
此 ， 在 第 二 个 方案 中 ， 估 计 期 符 基 于 当前 的 实际 信号 读数 。 第 二 个 场景 创建 了 一 个 
更 现实 的 系统 来 预见 预期 的 驾驶 行为 特性 。 
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使 用 过 去 行为 样本 的 窗口 ， 来 预测 区 驶 行为 信号 。 为 进行 驾驶 行为 预测 ， 所 有 
的 行为 信号 都 4 倍 抽取 。HMM 集群 的 倒 频 谱 特 征 以 每 96ms 一 帧 (3 个 样本 ) 在 超 
过 800ms 窗口 (25 个 样品 ) 中 提取 。 使 用 如 图 3. 14 所 示 的 HMM 的 结构 ， 构 建 了 
所 有 3 个 信号 之 间 的 时 间 相 关 性 。 此 结构 是 由 以 下 参数 指定 的 
过 滤 后 的 制 动 信号 (截止 频率 下 限 =1.6Hz， 截 止 频率 上 限 =12.8Hz) 








0.5 
= 0 
-0.5 
0 02 O04 0.6 0.8 1 12 14 1.6 L8 
取样 .104 
i WEA RS Jr e RER F PR=1.6Hz, BIEI ERR=6.4Hz) 
= 0 


0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 


0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 
取样 x104 
4A 
10 路 径 
x oi TT | | | | 
& oS | | 
% 1000 2000 3000 4000 5000 6000 
取样 


图 3.14 测试 数据 的 状态 序列 


e 离散 状态 集 S= IS, i=1, 2, =, MI 

e 状态 转移 概率 ol i=1, 2, =, M; j=l, 2, =, M 
式 中 一 一 状态 的 数量 。 

初始 时 ， 从 一 个 状态 到 另 一 个 状态 的 过 渡 概 率 被 设置 相同 ， 系 统 以 概率 1 在 第 
一 状态 启动 。 然 后 使 用 EM 算法 用 训练 数据 对 HMM 模型 进行 训练 。 在 测试 阶段 ， 
维特 比 解码 算法 确定 测试 数据 的 状态 序列 。 使 用 8 状态 的 HMM 聚 类 的 样本 状态 序 
列 如 图 3.15 所 示 。 
3.16 和 3. 17 分 别 显 示 了 对 一 位 随机 选择 的 驾驶 员 ， 基 于 第 一 和 第 二 方案 基 
础 上 的 驾驶 行为 信号 预测 的 样本 。 在 这 些 图 中 ， 以 蓝 色 绘制 ( 较 深 ) 的 信号 表示 
实际 的 信号 ， 红 色 ( 较 浅 ) 表示 估计 信号。 

dtl Tus 5 驶 行为 预测 问题 进行 了 与 驾驶 员 无 关 的 实验 。 从 数据 库 中 ， 我 们 选 
择 了 20 位 驾驶 员 进 行 培训 ， 其 余 3 位 驾驶 员 进 行 测试 。 每 3 位 驾驶 员 的 测试 数据 
与 在 驾驶 员 相 关 实 验 中 的 相同 。 在 这 两 个 驾驶 员 无 关 和 相关 的 实验 中 ， 分 类 器 保持 
相同 参数 的 设置 。 我 们 在 第 二 个 场景 中 为 每 个 测试 驾驶 员 计 算 平 均 预 测 误差 。 图 
3.18 显示 了 驾驶 员 无 关 实验 的 预测 误差 与 驾驶 员 相关 的 对 比 。 
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培训 预测 误差 
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3.15 培训 和 测试 的 数据 的 驾驶 行为 预测 误差 
a) 培训 b) 测试 
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图 3.16 第 一 种 情况 下 的 驾驶 行为 预测 
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制 动 信 号 MSE=15.841dB 
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图 3.17 第 二 种 情况 下 的 驾驶 行为 预测 
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图 3.18 驾驶 员 的 独立 和 依赖 的 驾驶 行为 预测 误差 比较 


正如 预期 的 那样 ， 针 对 驾驶 员 的 行为 预测 ， 在 驾驶 员 无 关 的 实验 中 比 驾 驶 员 相 
关 实 验 中 更 加 困难 。 

图 3. 19 显示 了 一 个 随机 选 定 的 驾驶 员 的 一 组 样本 预测 误差 信号 。 在 图 3. 19 中 
一 些 部 分 含有 较 高 水 平 的 预测 误差 。 为 了 研究 这 些 误差 出 现时 的 驾驶 条 件 ， 清 晰 地 
确定 并 转录 误差 较 高 部 分 是 很 必要 的 。 我 们 选择 最 高 的 预测 误差 的 20% VEN BOL, 
定义 高 于 此 羡 值 的 段 为 高 误差 部 分 。 高 误差 部 分 和 驾驶 条 件 之 间 的 相关 性 可 以 产生 
重要 的 发 现 。 因 此 ， 我 们 计算 高 误差 部 分 的 驾驶 任务 及 道路 类 型 的 持续 时 间 与 整个 
持续 时 间 之 间 的 变化 比率 。 变 化 比率 如 图 3. 20 所 示 ， 驾 驶 任务 和 道路 状况 如 图 
3.21 所 示 。 
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图 3.21 
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图 3.19 -PAARA fum Cun. Hk. EHE) 的 预测 误差 
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另外 在 图 3.20 中 ， 可 以 观察 到 在 分 散 注意 力 的 条 件 下 的 行为 信号 的 预测 比 没 
有 附加 任务 下 的 预测 误差 更 大 。 
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实验 结果 表明 ， 高 误差 部 分 的 长 度 与 所 有 任务 长 度 的 比例 高 于 所 有 任务 段 的 长 
度 与 所 有 任务 长 度 的 比例 。 因 此 ,干扰 的 条 件 对 驾驶 行为 有 显著 影响 。 图 3.20 [i] 
时 显示 ， 在 驾驶 任务 中 ， 与 其 他 任务 相 比 ， 手 机 对 话 是 驾驶 行为 更 有 效 的 指标 。 图 
3. 21 显示 道路 条 件 对 预测 驾驶 员 的 行为 方面 也 很 有 效 。 在 U FS EE 
驶 员 行为 ， 这 里 高 速 公 路 连接 到 和 车道 。 在 U 形 转弯 上 ， 突 然 路 线 变换 和 踏板 操作 
的 不 稳定 使 用 造成 较 大 的 预测 误差 。 






































3.5 ”小结 


在 这 项 研究 中 ， 我 们 研究 了 在 不 同 的 认 知 压力 /分 心 条 件 下 ， 驾 驶 员 和 驾驶 员 
状态 识别 的 问题 。 此 外 ， 我们 尝试 使 用 驾驶 员 过 去 的 动作 来 预测 驾驶 行为 信号 。 我 
们 的 目标 是 通过 分 析 驾 驶 行为 来 建立 一 个 系统 ， 以 实现 驾驶 员 一 车 辆 之 间 的 相互 作 
用 。 为 了 研究 并 确定 驾驶 行为 的 本 质 ， 我 们 采用 了 有 特征 的 驾驶 信号 ， 信 和 号 包括 制 
动 踏板 压力 、 加 速 踏板 压力 、 车 速 和 与 前 车 的 距离 信号 速度 。 当 能 够 获取 的 驾 台 行 
为 信和 号 的 数量 足够 时 ， 可 以 预测 该 系统 更 加 可 靠 。 

在 驾驶 员 识 别 实验 中 ， 测 试 结果 表明 ， 决 策 融合 的 方法 显著 提高 了 我 们 的 系统 
性 能 。 将 加 速 和 制 动 踏板 压力 信号 融合 ， 可 以 实现 69. 596 的 识别 成 功率 ， 而 这 些 
信号 单独 使 用 时 ， 在 23 位 驾驶 员 中 最 多 只 能 达到 58% 的 成 功率 。 对 进行 汽车 跟 车 
任务 的 驾驶 员 的 识别 结果 低 于 踏板 操作 模型 ， 然 而 使 用 它们 来 识别 一 位 驾驶 员 也 是 
可 行 的 。 我 们 同时 还 研究 了 针对 驾驶 员 数 目 减 少 情况 下 的 驾驶 员 识 别 问题 ， 来 得 到 
更 真实 的 结果 。 在 用 3 位 驾驶 员 中 的 加 速 和 制 动 踏板 压力 信号 的 融合 后 ， 得 到 的 最 
佳 识 别 结果 为 85. 21% 。 

分 心 检测 是 一 个 重要 的 问题 ， 因 为 认 知 /压力 条 件 对 驾驶 行为 有 很 大 的 影响 。 
我 们 在 没有 特定 的 任务 条 件 下 检测 驾驶 行为 信号 的 成 功率 达到 了 93.2% ， 而 对 10 
位 驾驶 员 的 随机 概率 大 约 为 S2% 。 在 我 们 的 数据 库 中 ， 有 将 近 一 半 的 驾驶 会 话 在 
特定 任务 下 完成 。 在 这 些 任务 中 ,手机 通话 、 与 车 上 的 乘客 交流 以 及 标识 阅读 和 牌 
照 阅读 是 几 种 最 有 效 的 。 

为 未 来 事件 对 驾驶 员 的 警告 是 一 个 重要 的 应 用 领域 ， 因 为 许多 交通 意外 是 驾驶 
员 造 成 的 。 在 这 项 研究 中 ， 我 们 提出 了 根据 加 速 踏板 的 压力 、 制 动 踏板 的 压力 和 车 
辆 速度 信号 进行 驾驶 行为 预测 的 一 种 方法 。 使 用 过 去 的 样本 预测 驾驶 行为 信号 产生 
了 较 好 的 结果 。 我 们 进行 驾驶 员 相关 和 无 关 的 驾驶 行为 预测 实验 。 虽 然 驾 驶 员 无 关 
实验 的 预测 误差 高 于 驾驶 员 相 关 的 实验 ， 但 驾驶 员 无 关 的 驾驶 行为 预测 达 其 错误 率 
足够 低 。 分 心 的 条 件 ， 预 计 对 驾驶 行为 有 很 大 的 影响 ， 我 们 的 驾驶 行为 预测 结果 也 
支持 这 一 结论 。 干 扰 条 件 下 的 驾驶 行为 信号 的 预测 比 没有 辅 加 任务 条 件 下 的 预测 误 
差 增 加 了 20% 。 

致谢 . 这 项 工作 已 经 得 到 EEEAG-104E176 项 目下 TUBITAK 以 及 驾驶 安全 项 
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摘要 : 基于 潜在 动态 的 多 层次 抽象 ， 本 章 提 出 了 对 所 观察 到 的 驾驶 行为 数据 的 
一 种 新 的 分 层 模 式 分 割 。 通 过 将 动态 特性 的 特征 矢量 定义 的 思路 和 一 种 无 监督 聚 类 
技术 相 结 合 ， 实 现 了 分 层 模 式 分 割 。 所 识别 的 模式 可 以 视 为 行为 抽象 模型 中 的 一 种 
符号 。 同 时 讨论 了 该 模型 的 一 些 应 用 。 

关键 词 : 驾驶 员 行 为 ， 正式 语法 ; 分 层 聚 类 ; 混合 系统 


4.1 简介 


最 近 ， 从 控制 技术 和 信息 处 理 角度 看 ， 人 们 已 经 在 探索 一 些 关 于 驾驶 员 模 型 的 
想法 。 这 些 模型 的 共同 目标 ， 就 是 实现 驾驶 安全 性 和 发 展 人 性 化 的 汽车 。 

在 芍 驶 行为 的 研究 中 ， 人 们 常常 发 现 ， 驾 驶 员 会 适当 地 从 复杂 的 非 线 性 控制 规 
律 切 换 到 简单 的 控制 规律 。 这 个 想法 可 以 通过 执行 所 观察 到 的 驱动 数据 的 “模式 
分 割 ”来 验证 。 模 式 分 割 是 基于 行为 数据 的 动态 特性 研究 ”的 分 类 。 把 得 到 的 每 
个 模型 分 配 成 各 个 符号 ， 视 为 基准 问题 的 解决 方案 之 一 。 此 外 ， 模 型 之 间 的 过 渡 可 
以 看 做 是 在 涉及 复杂 的 驱动 任务 时 驾驶 员 采 取决 定 的 一 种 形式 "| 。 因 此 ， 模式 分 
制 的 引入 能 够 使 我 们 理解 更 高 水 平 的 驾驶 行为 ， 这 些 驾 驶 行为 是 运动 控制 和 决策 等 
方面 的 综合 。 
通过 分 层 结构 可 以 描述 驾驶 行为 的 另 一 个 重要 特点 。 采 用 层次 化 的 建 模 或 者 基 
于 不 同 层次 的 动态 抽象 ， 许 多 行为 是 可 以 理解 的 。 从 这 个 角度 来 看 ， 在 分 析 人 的 行 
为 方面 时 引入 “分 层 模式 分 制 ” 是 很 自然 的 。 作 为 结果 ， 可 以 仅仅 依 笔 观察 到 的 行 
为 数据 ， 实 现 人 的 行为 的 分 层 符号 化 (没有 任何 先 验 知识 的 情况 下 )。 层 次 象征 在 
智能 人 类 支持 系统 的 设计 中 发 挥 着 至 关 重 要 的 作用 ， 这 要 归功 于 它 对 复杂 行为 具有 
较 高 的 描述 性 和 理解 性 。 

基于 上 述 考 虑 ， 在 潜在 动力 的 多 层次 抽象 的 基础 上 ， 我 们 提出 了 针对 所 观察 到 
的 驾驶 行为 数据 的 一 个 新 的 分 层 模式 分 割 。 为 了 实现 这 个 想法 ， 引 入 了 分 段 自 回归 
的 外 生 (PWARX) 模型 。 这 种 方法 经 常 被 用 来 作为 混合 动态 系统 ”的 识别 模型 ， 
其 特点 在 于 ， 每 个 ARX 模型 代表 着 每 个 模式 所 对 应 的 动态 。 在 我 们 的 问题 设置 中 ， 
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模式 的 数量 (符号 数 ) 认为 是 可 控 的 ， 从 而 能 够 获得 层次 结构 。 当 然 ， 在 混合 动 
力 系统 识别 的 标准 框架 下 ， 模 式 的 数量 假定 是 固定 的 。 通 过 将 揭示 动态 特性 的 特 
征 矢量 的 定义 和 一 种 无 监督 聚 类 技术 这 两 种 想法 相 结合 ， 来 实现 分 层 模式 
分 割 。 

所 有 的 一 切 ， 分 层 模式 分 割 和 象征 人 类 行为 的 实用 性 ， 从 象征 基准 的 角度 ， 通 
过 在 高 速 公 路 驾驶 行为 数据 中 应 用 它们 来 加 以 说 明 。 


42 分 层 模 式 分 割 


在 本 节 中 ， 我 们 将 讨论 在 驾驶 行为 数据 中 如 何 界定 “模式 ”， 以 及 如 何 获得 层 
结构 。 下 面 ， 我 们 从 定义 驾驶 员 的 输入 和 输出 开始 。 
4.2.1 输入 和 输出 的 定义 


在 本 章 中 ， 我 们 专注 于 高 速 公路 上 的 各 驶 行为 ， 由 “跟随 前 车 ”"、“ 换 道 ” 和 
弯 道 超车 ”等 组 成 。 驾 驶 员 输 入 ， 即 驾驶 员 的 感官 信息 定义 如 下 ( 见 图 4.1): 














实验 车 辆 


图 4.1 输入 信号 的 定义 





与 前 车 之 间 的 距离 . uo 
前 车 和 实验 车 之 间距 离 的 变化 率 . uo 
与 前 车 侧 向 的 距离 .uw,。 
实验 车 辆 的 偏 航 角 : u 
接近 指数 (KdB): us。 
在 最 近 10s 内 ,试验 车 驾驶 员 观 察 左 侧 反 光 镜 的 持续 时 间 总 量 (TL): 
在 最 近 10s 内 ， 试 验 车 驾驶 员 观 察 右 侧 反光 镜 的 持续 时 间 总 量 (TR): wo 
KdB 是 一 个 指数 ， 表 示 投 影 在 驾驶 员 视 网 膜 (' 上 ， 前 车 后 面 的 区 域 对 时 间 的 
导数 的 对 数 。KdB 可 以 通过 w 和 以 表示 如 下 : 
] u, >0 


] u, «0 








-10 x1og( | -2x1 x 
uy x 


LM 
5x10 





KdB - (4.1) 





Uy 
10 x log] | -2 xox 
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大 的 KdB 意味 着 驾驶 员 面 临 着 危险 情况 。 此 外 ,驾驶 员 输 出 的 定义 
如 下 : 

e 转向 角 : Vio 

e 踏板 操作 : V20 

选择 这 些 输入 和 输出 变量 是 为 了 使 所 得 到 的 模型 可 以 表示 所 观察 到 数据 相关 的 
行为 特征 。 此 外 ， 可 以 在 实际 的 驾驶 情况 下 ， 利 用 现 有 的 传感器 得 到 这 些 变量 的 
数据 。 


4.2.2 PWARX 模型 作为 多 模 轰 驶 行为 的 数学 表达 式 


在 本 节 中 ， 引 入 PWARX 模型 ,来 作为 驾驶 行为 的 一 个 数学 模型 。 它 包括 了 几 
个 ARX 模型 (也 就 是 模式 )， 并 可 以 适当 地 控制 模式 的 数量 。 我 们 考虑 下 面 有 ;个 
模式 的 一 阶 PWARX 模型 ; 








y(k) =f(r(k)) +e(k) (4.2) 
O,r(k) ,r(k) eR, 
O,r(k) ,r(k) ER, 
f(r(k)) = y (4.3) 
O.r(k) ,r(k) eR, 
其 中 y(k) Mrk) 定义 如 下 : 
y(k) 2 C GO) x(k) )" (4.4) 
r(k) 2 (Qu (k -1)u(k 21) u;(k-1)y,(k -1)y, (k -1))* (4. 5) 
变量 左 表示 采样 指数 (k= 1, 2, =, n), WEY, 06(i2 1, 2, =, s) BHA R 
据 的 一 个 2 x9 BAYA RIFE, AUB U FÉR: 


0,,1 
a. (4.6) 
在 PWARX 模型 中 ， 不 只 是 参数 96， 还 有 子 空间 R, ，…，R, 的 参数 是 未 知 的 。 
Wut, MEA, 将 每 个 观 上 到 的 GO), rD) 分 配给 相应 的 可 趟 并 不 
易 。 为 了 解决 这 个 问题 ， 通 过 对 感 兴趣 的 特征 矢量 加 以 定义 ， 在 参考 文献 [8] 中 
开发 了 基于 聚 类 的 技术 ， 这 个 特征 矢量 表示 了 局 部 的 基于 (y(k), r(k)) 的 动力 
学 特性 。 在 下 一 节 中 ， 介 绍 了 这 个 特征 矢量 。 
4.2.3 输入 和 输出 的 定义 
1. 假定 给 出 了 一 组 数据 样本 (Oy G, rG))} G= 1，2，…，7m) 。 对 每 个 样 
ee on 生成 局 部 的 数据 集 


， 并 计算 特征 矢量 所,( 见 图 4.2) 。 请 注意 ， 该 指数 7 不 是 在 时 间 空 间 ， 而 是 在 
ae 间 中 表示 顺序 。 特 征 矢量 去 包括 用 于 LDs, 的 局 部 ARX 模型 中 的 局 部 参数 
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( COM), (877)! AR LDs(0/7)* (L=1, 2) 中 数据 7 PHE m, mfi FR 
计算 : 





a = ($6) yr (4.7) 
无 监督 聚 类 


数据 空间 特征 矢量 空间 (集群 ) 
图 4.2 从 数据 空间 到 特征 矢量 空间 的 变换 






o 
oo 
o9 
o 





9 (yg) 








其 中 入” (exl; Lal, 2) 是 ZDy 的 输出 样本 ， 由 按 下 式 进行 计算 : 





b= (nmer) (reLDs) (4.8) 
所 以 
f= (6.0 ym) (4.9) 
2. 对 每 个 特征 矢量 专 ， 协 方差 矩阵 及 计算 如 下 : 
V, 0 0 
R,- 0 V, 0 (4. 10) 
0 0 Q, 
其 中 
V= y e" (4.11) 
se = CACA A “by” (4. 12) 
= 2 (r-m,)(r-m,)" (4. 13) 


eta eee ee ee ee 
BRUME, HORUS ERRE, Jb, WI AIEE 及 代表 相对 应 的 特 
MERRE £T (SRE, MEBOOISRUY NORE Aet BALE REM, R BEM 
和 矩阵 。 


4.2.4 RHE 
将 非 监 督 等 级 聚 类 施加 到 特征 矢量 &，(j =1，2,，…, n) 上 。 肾 类 算法 列举 
WF: 
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3. 把 每 个 特征 矢量 专 看 作 一 个 群集 C,， 即 每 个 群集 只 包括 一 个 特征 矢量 。 使 
用 如 下 差异 估算 方法 计算 任何 两 个 群集 C, 和 C, 之 间 的 差异 Ds 


D, 7]£, -El 7 (E -8)"R G, -£) (4. 14) 








其 中 
R=R +R! (4. 15) 
4. 将 两 个 集群 C, 和 C, 归 一 化 ， 此 时 显示 最 小 的 D, ,。 归 一 后 的 集群 用 C ,表示 。 
如 果 所 有 的 集群 都 归 一 化 了 ， 那 么 结束 计算 ,否则 跳 回 步骤 3。 
5. 计算 所 有 的 1(t 关 r) 时 C, 和 C, 之 间 的 差异 ， 用 以 下 的 差异 度 算法 
计算 : 


























2 
n,n, 





D. m 


& -& (4.16) 














n, + Nig ec, £i eC, Re, 

6. 其 中 ,入 n, 分 别 是 属于 群集 CLR C, 的 特征 矢量 的 数量 。 跳 回 步 又 2。 

在 这 个 聚 类 程序 之 后 ， 可 以 得 到 特征 矢量 空间 的 分 类 与 一 个 树 状 图 ， 显 示 
了 不 同 数 量 模式 的 分 层 分 类 。 因 为 从 特征 矢量 (E) 空间 变换 到 观察 到 的 原始 
数据 (y, r) 空间 很 简单 ， 所 以 所 观察 到 的 数据 的 模式 分 割 与 层次 结构 一 起 
获得 。 

请 注意 ， 一 且 得 到 数据 的 模式 分 制 ，PWARX 数据 库 的 参数 6, 和子 空间 
及 ，… ,RR. 划 分 的 识别 就 非常 简单 。 















































4.3 ”驾驶 行为 数据 的 分 析 


4.3.1 驾驶 环境 


在 本 章 中 ， 在 驾驶 模拟 器 上 设计 了 以 下 在 高 速 公 路 上 的 驾驶 环境 ， 它 提供 了 一 
个 身 临 其 境 的 立体 视觉 "]。 

e 这 条 高 速 公 路 是 无 止境 的 ， 有 两 个 车 道 : 巡航 车 道 和 超车 道 。 

° £10 辆 汽车 在 行驶 车 道上 ， 它 们 中 有 5 辆 在 实验 车 的 前 面 ， 其 余 五 辆 在 实 
验 车 的 后 面 。 它 们 的 速度 在 70 -85km/h 范围 内 变化 。 一 旦 实验 车 追 上 前 车 ,那么 
尾 端 车 移动 到 该 前 车 的 前 面 。 实 验 者 对 此 变化 并 不 知情 。 

e 在 超车 道上 有 10 辆 车 ， 它 们 中 有 5 辆 在 实验 车 的 前 面 ， 其 余 5 辆 在 实验 车 
的 后 面 。 它 们 的 速度 在 90 ~ 110km/h 之 间 变 化 。 一 旦 前 车 超过 实验 车 ， 则 尾 端 车 
移动 到 该 前 车 的 前 面 。 实 验 者 对 此 变化 并 不 知情 。 

e 车 辆 之 间 的 距离 被 设置 在 50 ~ 300m， 除 实验 车 外 ， 其 他 车 辆 之 间 没 有 
碰撞 。 

e 在 实验 车 变 道 时 ， 其 他 车 辆 行驶 在 自己 的 车 道中 。 
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5 个 实验 人 员 使 用 轨 驶 模拟 器 进行 测试 沟 驶 。 需 要 注意 的 是 ， 实 验 人 员 得 到 这 
样 的 指令 :“ 根 据 你 平时 的 驾驶 方式 开车 ”。 由 于 这 个 指令 是 “在 车 上 ”， 因 此 实验 
人 员 对 环境 信息 没有 太 多 的 关心 。 也 就 是 说 ， 每 个 实验 人 员 都 是 按 他 /她 通常 的 方 
AT. 


4.3.2. 观察 到 的 行为 数据 和 聚 类 结果 


基于 上 一 节 中 所 示 的 特征 矢量 的 非 监督 聚 类 已 应 用 到 所 观察 到 的 驾驶 行为 数据 
上 。 按 上 面 的 计划 进行 实验 ， 图 4. 3 所 示 为 所 得 到 的 树 状 图 ， 其 中 纵 轴 表 示 复 之 间 
的 相 异 度 。 








x104 


相 异 





图 4.3 聚 类 的 树 图 (实验 人 员 A) 











如 图 4.3 所 示 ， 当 这 两 个 集群 归 一 化 后 ， 相 应 的 差异 性 通过 水 平 轴 来 指定 。 横 
轴 表 示 的 数据 在 聚 类 后 重新 排列 来 指示 层次 结构 。 从 这 个 图 我 们 可 以 清楚 地 了 解 各 
驶 行为 的 层次 结构 。 图 中 添加 了 两 条 水 平 的 虚线 。 上 面 的 线 表 示 模 式 (RE) 的 
数量 *， 即 参考 文献 [2] 中 ARX 模型 的 数量 设 定 为 两 个 。 另 一 方面 ， 下 侧 的 线 表 
示 s 被 设 定 为 5。 

在 图 4.4 和 图 4.5 中 ， 所 观察 到 的 实验 人 员 A RUSSE (HS A iih) 资料 如 
图 所 示 。 所 有 的 配置 文件 在 聚 类 前 进行 归 一 化 处 理 。 当 实验 人 员 的 车 在 前 车 的 右 侧 
时 ， 横 向 位 移 取 正 值 。 实 验 人 员 轰 驶 车 辆 顺 时 针 方向 旋转 时 ， 转 向 角度 采取 正 值 。 
此 外 ， 加 速 时 踏板 操作 取 正 值 ， 考 生 踩 制 动 踏板 时 取 负 值 。 注 意 距 离 、 距 离 变 化 率 
和 横向 位 移 这 些 资 料 可 能 会 不 连续 。 由 于 这 些 变量 通过 与 前 车 的 相对 位 移 来 定义 ， 
因此 一 旦 实验 车 变换 了 行车 道 ， 这 些 变量 将 不 连续 地 变化 。 
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图 4.4 ”观察 到 的 配置 文件 和 模式 分 割 结果 (实验 人 员 A， 两 种 模式 ) 


两 种 模式 建 模 的 聚 类 结果 在 图 4. 4 中 通过 颜色 显示 ， 同 时 5 种 模式 建 模 时 的 聚 
类 结果 如 图 4.5 所 示 。 可 以 看 出 ， 模 式 分 割 效果 很 好 。 为 了 研究 各 模式 的 行为 含 
X, 关于 横向 位 移 资 料 的 局 部 放大 在 图 4. 6a、 图 4.7a 和 图 4. 8a 中 显示 。 此 外 ,在 
范围 一 距离 变化 率 空 间 内 的 数据 分 布 分 别 在 图 4. 9a, K 4. 10a 和 图 4. 11a 中 显示 。 
水 平 轴 表 示 上 距离 ， 而 垂直 轴 为 范围 变化 率 。 在 这 些 图 中 可 以 明显 看 出 ， 实 验 人 员 A 
fi B 的 两 种 模式 可 以 分 别 理解 为 “在 巡航 车 道 跟随 + 超车 ” (模式 1: FC + 了 模式 
F) 和 “在 超车 道 跟随 + 返回 ”( 模 式 2: FP +R 模式 )。 这 一 结果 意味 着 ， 基 于 
潜在 动态 的 “ 相 异 性 ”， 可 以 实现 行为 的 符号 化 。 

同时 ， 图 4. 8a 表示 针对 实验 人 员 C 的 模式 分 割 的 不 同 倾向 。 在 实验 人 员 C 的 
情况 下 ， 两 种 模式 的 含义 可 以 分 别 理解 为 FC 和 P+ FP R, 
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图 4.5 观察 到 的 配置 文件 和 模式 分 割 结果 (实验 人 员 A，5 种 模式 ) 
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图 4.6 侧 向 位 移 资 料 的 放大 (实验 人 员 A) 
a) 在 两 种 模式 的 情况 下 b) 在 5 种 模式 的 情况 下 
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图 4.7 侧 向 位 移 资 料 的 放大 (实验 人 员 B) 
a) 在 两 种 模式 的 情况 下 b) 在 5 种 模式 的 情况 下 
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图 4.8 侧 向 位 移 资料 的 放大 (实验 人 员 C) 
a) 在 两 种 模式 的 情况 下 b) 在 5 种 模式 的 情况 下 
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图 4.9 ”观测 数据 的 分 布 和 模式 分 割 (实验 人 员 A) 
a) 在 两 种 模式 情况 下 b) 在 5 种 模式 情况 下 
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4.10 观测 数据 的 分 布 和 模式 分 割 〈 实 验 人 员 B) 
a) 在 两 种 模式 情况 下 b) 在 5 种 模式 情况 下 








距离 变化 率 
距离 变化 率 





范围 
a) 








页 














4.11 观测 数据 的 分 布 和 模式 分 割 (实验 人 员 C) 
a) 在 两 种 模式 情况 下 b) 在 5 种 模式 情况 下 





4.4 讨论 


为 了 分 析 行 为 的 层次 结构 ， 根 据 如 图 4.5 所 示 的 实验 人 员 A 的 5 个 模式 建 模 的 
聚 类 结果 ，3 个 实验 人 员 的 局 部 放大 的 横向 位 移 如 图 4.6b、 图 4.7b 和 图 4. 8b 所 
示 ， 以 及 距离 一 距离 变化 空间 中 的 数据 分 布 如 图 4.9b、 图 4. 10b 和 图 4. 11b 所 示 。 
从 这 些 图 中 ， 我 们 可 以 看 到 ， 两 种 模式 的 模型 进一步 分 解 为 局 部 的 行为 : 

。“ 在 巡航 车 道 长 距离 跟随 ”( 模 式 1, LRFC 模式 ) ; 

。“ 在 巡航 车 道 短 距离 跟随 ”( 模 式 2. SRFC 模式 )，; 

。“ 超 车 ”( 模 式 3: P 模 式 ); 

。“ 在 超车 道 跟随 ”( 模 式 4: FP Bish) ; 

。“ 返 回 巡 航 车 道 ”( 模 式 5，R 模式 )。 
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我 们 可 以 找到 所 有 实验 人 员 的 类 似 象征 。 这 些 模式 之 间 的 切换 是 由 驾驶 员 的 决 
策 造成 的 。 图 4. 12 和 图 4. 13 显示 了 树 状 图 上 模式 之 间 的 层次 关系 。 因 此 ， 可 以 在 
一 个 相当 一 致 的 方式 下 得 到 驾驶 行为 的 层次 结构 。 这 项 工作 的 一 个 显著 贡献 是 ， 仅 
仅 基于 观察 (包括 输入 和 输出 信号 的 定义 ) 和 数据 处 理 ， 即 可 自动 获得 这 种 分 层 
结构 。 由 于 这 个 层次 清楚 地 表达 了 人 的 行为 的 多 个 抽象 层次 ， 所 提出 的 框架 可 以 视 
为 以 人 为 中 心 的 系统 设计 的 基础 。 

高 层次 分 解 
































在 巡航 车 道 
跟随 + 超车 模式 





低层 次 分 解 
图 4.12 驾驶 行为 的 确定 分 层 结构 (实验 人 员 A AB) 


高 层次 分 解 


式 





低层 次 分 解 
图 4.13 和 鸭 驶 行为 的 确定 分 层 结构 (实验 人 员 C) 
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4.4.1 象征 行为 模式 的 发 展 和 其 行为 预测 的 应 用 


在 本 节 中 ， 讨 论 了 使 用 所 提出 的 人 的 行为 模型 的 一 些 应 用 。 正 如 已 经 提 到 的 ， 
这 种 混合 系统 建 模 被 视 为 “基准 ”使 用 符号 化 的 一 种 解决 方案 。 通 过 这 种 方法 ， 
人 的 行为 可 以 作为 能 够 产生 一 个 特定 的 语言 (设置 符号 串 ) 的 实体 (语言 源 )。 随 
着 正式 的 行为 语法 ， 如 Production Rule (产生 式 规 则 ) ， 这 种 假设 使 人 们 有 可 能 对 
人 类 的 行为 加 以 分 析 和 模拟 。 此 外 ， 基 于 混合 动力 系统 象征 更 高 级 的 人 类 行为 的 语 
法 建 模 ， 将 使 人 类 行为 的 长 期 预测 成 为 可 能 。 














4.5 小 结 


针对 所 观察 到 的 罗 驶 行为 数据 ， 在 潜在 动态 的 多 层次 抽象 基础 上 ， 本 章 提出 了 
一 个 新 的 层次 模式 分 割 。 通 过 将 揭示 了 动态 特性 的 特征 矢量 定义 和 无 监督 聚 类 技术 
相 结 合 ， 实 现 了 分 层 的 模式 分 割 。 所 识别 的 模式 可 以 视 为 在 行为 的 抽象 模型 中 的 一 
种 符号 ， 所 提出 的 框架 使 我 们 能 够 建造 理解 人 类 行为 的 信号 空间 和 符号 空间 之 间 的 
桥梁 。 基 于 一 些 正规 语法 框架 的 更 高 人 类 行为 模式 的 建设 及 其 对 人 类 行为 预测 的 应 
用 ， 是 今后 的 研究 工作 内 容 。 
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BS a 和 车载 通信 系统 的 评价 
Gerhard Schmidt, Anne TheiB, Jochen Withopf 和 Arthur Wolf 


摘要 : 由 于 材料 对 背景 噪声 和 声音 的 吸收 能 力 较 强 ， 车 内 前 排 和 后 排 乘 客 之 间 
的 交流 非常 困难 。 通 过 汽车 音响 ， 车 载 通信 系统 (ICC) 将 专用 座 椅 的 送 话 器 信号 
加 以 区 分 ， 以 提高 语音 可 理解 性 和 对 话 质量 。 由 于 信号 干扰 和 ICC 系统 闭环 操作 ， 
需要 各 种 信号 处 理 技术 来 降低 反馈 、 回 声 和 噪声 ， 以 防止 系统 的 不 稳定 。 

本 章 对 信号 处 理 方 案 做 了 一 个 基本 的 介绍 ， 并 对 处 理 单元 和 整个 ICC 系统 的 系 
统 评 估 提 出 了 几 点 想法 。 在 评估 过 程 中 ,考虑 了 乘客 说 与 听 的 不 同 需求 。 采 用 了 4 
种 不 同类 型 和 设置 形式 来 进行 评估 。 第 一 种 是 理想 的 ICC 系统 。 在 没有 考虑 任何 品 
声 和 反馈 问题 的 条 件 下 ， 模 拟 系统 实时 的 计算 ， 并 提供 给 听众 和 测量 设备 。 这 种 理 
想 系统 是 用 来 得 到 性 能 水 平 的 上 限 或 阀 值 ， 如 最 大 的 合理 增益 。 此 外 ， 评 估 一 个 真 
正 的 ICC 系统 ， 是 用 来 分 析 所 得 到 的 语音 可 理解 性 和 系统 质量 。 一 些 测量 是 基于 线 
性 时 不 变 系 统 的 假设 ， 这 种 假定 经 常 有 悖 于 真正 的 ICC 系统 。 考 虑 到 这 个 原因 ， 
ICC 系统 应 冻结 一 些 算法 组 件 ， 以 允许 基于 LTI 的 方法 来 获得 合适 的 结果 。 通 常情 
况 下 ， 这 种 方法 仅仅 可 能 用 于 研究 ICC 系统 ， 而 不 会 出 现在 市 售 系统 里 。 最 后 ， 应 
在 没有 任何 ICC 系统 的 条 件 下 测量 ， 这 样 可 以 得 到 一 个 用 于 对 比 的 基准 。 

Kei: 车 载 通信 ; 提高 信 骂 比 (Signal Noise Ratio, SNR); 语音 传输 指数 ; 
系统 评估 


5.1 简介 








当 汽 车 在 中 速 或 高 速 下 行驶 时 ， 车 内 前 排 乘客 与 后 排 乘客 之 间 的 交流 会 变 得 很 
困难 ， 这 是 由 于 发 动机 、 轮 胎 以 及 风 的 噪声 导致 噪声 水 平 增 大 ， 从 而 导致 SNR 降 
低 。 男 一 个 原因 就 是 ， 吸 音 内 饰 材料 降低 了 乘客 接收 声音 的 级 别 。 此 外 ， 和 驾驶 员 和 
前 排 乘客 说 话 时 是 对 着 前 挡 风 玻璃 的 〈 见 图 5.1)。 因 此 ， 汽 车 在 高 速 行驶 的 状况 
下 ， 后 排 乘 客 在 嘲 杂 的 环境 中 很 难 理解 前 排 乘 客 所 说 的 话 。 图 5. 2 所 示 为 两 名 前 排 
乘客 和 三 名 后 排 乘 客 坐 在 汽车 的 车 厢 内 的 示意 图 ， 通 过 一 个 例子 描述 了 前 排 乘客 和 
后 排 坐 在 驾驶 员 后 面 的 乘客 之 间 所 进行 的 交流 。 为 了 提高 语音 的 可 理解 性 ， 乘 客 开 
始 大 声 说 话 并 倾斜 或 转向 倾听 的 同伴 ， 从 而 使 SNR 提高 到 20dB。 这 样 长 时 间 交 
流 ， 通 常会 很 累 并 且 不 和 舒服。 如 果皮 驶 员 也 转 喘 ， 道 路 安全 就 会 成 为 一 个 值得 关注 
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的 问题 。 
车 厢 内 乘客 之 间 的 语音 质量 和 可 理解 性 ， 可 以 通过 ICC 系统 来 提高 "" CA 
5. 1 展示 了 车 厢 内 安装 了 市 售 ICC 系统 后 的 情景 。 











图 5.1 和 乘客 进行 交流 


前 Na J Hx 





汽车 行驶 方向 
图 5.2 车 厢 内 乘客 交流 示意 图 
本 章 接 下 来 的 内 容 里 所 描述 的 一 些 结果 是 以 该 系统 为 基础 的 ， 因 此 我 们 将 会 在 
接 下 来 的 小 节 展 示 关 于 该 系统 的 更 多 细节 。 
为 了 提高 通话 质量 ， 讲 话 乘客 的 声音 会 被 送 话 器 记录 ， 然 后 通过 这 些 扬声器 ， 








O 也 有 文献 使 用 了 车 厢 内 对 话 (IVC) 系统 和 数字 语音 增强 系统 (DVE) 的 说 法 。 
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3 





播放 给 聆听 的 乘客 。 从 图 5. 3 中 可 以 看 到 用 于 评估 的 送 话 器 和 扬声器 系统 的 位 置 。 
4 个 送 话 需 安装 在 蜀 驶 员 周 玮 ， 鸭 驶 员 后 面 的 后 排 乘客 的 扬声器 安装 在 门 上 和 由 


架 上 。 








扬声器 送 话 器 





图 5.3 扬声器 和 送 话 器 的 位 置 (已 获 SVOX 许可 ) 


图 5. 4 所 示 是 为 前 排 乘 客 和 后 排 乘 客 均 安装 有 送 话 器 和 扬声器 的 ICC 系统 结构 
示意 图 。 由 于 送 话 器 至 少 从 扬声器 中 提取 了 小 部 分 的 信和 号， 因此 ICC 系统 在 一 个 电 
子 声音 的 闭环 下 工作 。 如 果 这 部 分 信号 不 是 足够 小 ， 将 会 出 现 声 音 持续 振荡 ， 好 像 
啸 叫 或 尖 鸣 声 。 啸 叫 的 长 短 取决 于 ICC 系统 的 输出 增益 、 模 拟 送 话 器 和 扬声器 放大 
器 的 增益 以 及 车 厢 的 声学 特性 。 考 虑 到 这 个 问题 ，ICC 系统 的 所 有 增益 都 要 进行 细 
致 地 调节 。 

ICC 系统 通常 情况 下 会 集成 到 汽车 的 音频 系统 中 ， 因 此 会 受到 诸多 条 件 的 限 
制 ， 并 可 能 会 出 现 更 多 的 问题 。 装 备 了 1ICC 系统 的 汽车 通常 安装 有 免 提 和 语音 对 话 
系统 。 如 果 这 些 系 统 同时 运行 ， 一 定 要 特别 注意 。 例 如 ， 如 果 ICC 系统 所 采用 的 播 
放 音 量 依赖 背景 噪声 的 水 平 ， 那 么 包括 免 提 或 语音 对 话 系统 中 必须 装备 回声 消除 单 
元 。 有 关 这 些 限制 条 件 的 详细 情况 可 以 在 参考 文献 [3, 32] 中 看 到 。 

针对 与 汽车 其 他 子 系统 之 间 的 连接 与 交互 ， 也 会 有 一 些 可 以 有 效 利用 的 优势 。 
外 部 信号 2 ， 如 阴雨 、 导 航 提示 或 警告 信号 ， 不 仅 可 用 于 识别 反馈 路 径 中 的 临界 频 
率 (那些 刺耳 声 将 出 现 ) 或 延 时 ， 还 可 以 判断 所 有 扬声器 与 送 话 器 之 间 的 冲击 或 
频率 响应 。 此 外 ， 从 汽车 总 线 系 统 ， 如 CANS 总线 ， 所 提取 的 信息 也 有 助 于 改善 
ICC 系统 的 运行 状况 。 例 如 ， 安 装 在 座 椅 上 用 于 警告 乘客 未 系 安全 带 的 重量 传 感 
器 ， 也 可 以 用 来 使 未 乘坐 座 椅 上 的 ICC 系统 不 工作 。 然 而 ，ICC 系统 与 其 他 子 系统 























”在 这 种 情况 下 ,外 部 是 指 从 ICC 系统 的 角度 来 观察 。 
Q CAN 代表 控制 器 区 域 网 络 。 
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送 话 器 信号 





采样 频率 转换 、 信 号 混合 、D-A 转 换 、 放 大 
图 5.4 汽车 音响 系统 中 人 对 入 的 ICC 系统 结构 图 











之 间 相 互 作用 的 详细 情况 不 在 本 章 讨 论 范围 之 内 。 下 面 我 们 将 人 简要 介绍 ICC 系统 所 
必需 的 那些 信号 处 理 组 件 。 

为 了 提高 稳定 性 ， 像 波束 形成 、 反 馈 和 回声 消除 、 自 适应 陷 波 滤波 、 噪 声 抑 
制 、 自 适应 增益 调整 、 均 衡 和 非 线性 处 理 等 信号 处 理 的 方法 都 会 采用 。 在 5.3 Wm 
我 们 将 简单 地 介绍 这 些 组 件 。 在 本 节 中 ， 我 们 将 重点 介绍 图 5. 4 中 所 示意 的 ICC 系 
统 的 一 般 概念 。 

即使 大 多 数 汽车 信号 和 数据 传输 选项 ， 如 MOSTO 总 线 ， 能 够 通过 样本 循环 传 
输 音频 信号 ， 实 际 上 ， 所 有 的 音频 信号 都 是 通过 样本 块 的 方式 来 传输 和 人 处理 的 ， 在 











O MOST 是 媒体 导向 系统 传输 的 缩写 ,该 总 线 系统 往往 用 于 音频 数据 的 传输 。 
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现在 的 汽车 上 大 多 数 使 用 的 是 不 小 于 64 的 样本 块 。 出 于 这 个 原因 ， 信 号 增强 单元 ， 
WICC 系统 ， 使 用 基于 块 的 算法 方式 ， 具 有 一 定 的 优势 ， 但 是 与 样本 循环 处 理 方法 
相 比 ， 也 会 产生 不 利 的 一 面 ， 即 计算 的 复杂 性 降低 。 结 果 ， 在 图 5. 5 中 最 左边 和 最 
右边 的 信号 处 理 模 块 进行 转换 ， 如 快速 傅 里 叶 变 换 (FFT) 或 更 复杂 的 滤波 器 ， 将 
言 号 块 分 别传 输 到 子 带 域 ， 反之 亦 然 。 在 后 面 我 们 会 重点 介绍 ， 延 时 是 ICC 系统 中 
一 个 非常 关键 的 问题 。 其 结果 就 是 ， 低 延 时 滤波 右 组 方法 在 这 里 特别 重要 ， 此 外 ， 
一 些 预 处 理 和 后 处 理 ， 通 常 需要 预 加 重 或 去 加 重 滤波 器 。 更 多 详细 内 容 在 5.3. 1 17 
中 描述 。 

将 时 域 信号 转换 成 子 带 域 (或 频 域 ) 信 号 后 ,一 些 算法 组 件 将 被 应 用 到 所 有 
的 输入 波谱 ( 如 噪声 抑制 ) 和 所 有 的 输出 波谱 (如 均衡 波谱 )。 因 此 ， 在 图 5.5 中 
我 们 插入 两 个 合适 的 信号 处 理 模块 。 这 两 个 信号 处 理 部 分 在 5. 3. 2 节 和 5.3.5 节 中 
做 进一步 论述 。 








特定 座 椅 的 


特定 座 椅 的 处 
预 处 理 和 分 = AREN TARAR eee RREN 
析 滤 波 器 组 乘客 设置 ) 置 ) 器 的 处 理 器 组 扬声器 信号 


扬声器 信 


对 记录 乘客 Hum Wa 
谈话 内 容 的 mersa XA 


图 5.5 车 载 通信 系统 的 基本 信和 号 处 理 单元 


送 话 器 和 扬声器 信号 增强 单元 之 间 涉 及 的 所 有 信和 号 分 量 ， 可 以 分 为 两 个 转换 部 
分 。 一 组 用 于 提取 每 一 个 座 椅 上 乘客 谈话 的 专用 信和 号， 通过 选择 其 中 一 个 送 话 器 或 
FOULS kia (Ga, RRA) 就 可 以 简单 地 实现 。 第 一 组 信号 
处 理 的 输出 叫做 特定 座 椅 信号 和 讲话 乘客 的 参数 ， 第 二 组 接收 上 述 信号 并 将 这 些 讲 
话 人 的 信号 映射 到 专门 为 单个 听话 人 而 设计 的 信号 上 。 这 包括 一 个 混合 的 过 程 ， 并 
根据 每 一 个 倾听 者 座位 对 噪声 的 水 平 评估 来 调整 增益 。 最 终 ， 每 一 个 倾听 者 的 信和 号 
被 映射 到 扬 声 带 ， 采 用 了 合适 的 增益 和 延 时 设置 ， 将 这 些 扬 声 带 安装 在 倾听 者 座 
位 上 。 

与 免 提 电话 或 语音 识别 引擎 相 比 ， 迄 今 为 止 还 没有 已 经 标准 化 的 ICC 系统 的 质 
量 评 佑 方法， 而 且 仅 仅 有 少量 方法 公开 发 表 (如 参考 文献 [6, 7])。 因 此 , 与 其 
他 的 大 多 数 语音 和 音频 应 用 相 比 ，ICC 系统 的 评估 更 具有 挑战 性 。 就 一 个 基本 的 
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ICC 系统 而 言 ， 我 们 主要 着 眼 于 ICC 系统 的 分 析 ， 并 提出 一 种 可 以 进行 自动 评估 的 
总 体 思路 。 

在 我 们 开始 评估 之 前 ，ICC 系统 的 限制 和 边界 条 件 及 其 后 果 都 将 在 接 下 来 的 小 
节 进 行 讨论 。 对 一 个 系统 的 相关 信号 处 理 单元 有 一 个 基本 的 理解 是 必要 的 ， 以 便 能 
够 设计 出 合适 的 测量 与 试验 方法 ,我 们 将 对 在 5. 3 节 里 图 5. 5 所 示意 的 各 个 处 理 单 
元 进行 简单 总 结 。 

评估 ICC 系统 时 ， 通 常会 比较 有 无 ICC 系统 支持 时 对 话 有 何不 同 。 除 此 之 外 ， 
运行 最 佳 的 ICC 系统 (例如 ， 除 去 噪声 而 不 扭曲 剩 下 的 语音 信号 ， 反 馈 被 理想 抑 
制 ) 的 评估 结果 可 以 作为 改善 对 话 的 上 限 基 准 。 更 进一步 说 ， 如 果 一 些 测 量 中 能 
够 应 用 线性 时 不 变 系统 那些 众所周知 的 理论 ， 那 将 令 人 非常 满意 。 由 于 ICC 系统 中 
涉及 了 很 多 时 变 处 理 ， 因 此 在 某 些 测量 和 调查 中 冻结 某 种 模式 将 十 分 有 益 。5.4 节 
中 对 这 些 用 于 评估 的 系统 类 型 做 了 详细 说 明 。 

在 5.5 市 中 ,我 们 阐述 了 ICC 系统 评估 的 几 个 方面 。 一 方面 ,我们 将 主观 方案 
与 客观 方案 加 以 区 分 ， 另 一 方面 ， 区 分 谈话 者 与 倾听 者 的 感知 品质 。 本 章 最 后 做 了 


小 结 。 














5.2 边界 条 件 


在 ICC 系统 的 设计 过 程 中 ， 必 须 考 虑 限制 条 件 与 系统 的 某 些 要 求 。 这 些 条 件 将 
由 系统 自身 的 物理 属性 给 出 ， 例 如 电 声 反 馈 以 及 乘客 对 ICC 系统 的 期 望 。 

由 于 不 是 一 个 人 在 谈话 交流 ， 因 此 必须 找到 谈话 者 与 倾听 者 双方 的 要 求 ， 从 而 
确定 所 有 的 边界 条 件 。 在 系统 运行 过 程 中 ， 这 些 产 生物 理 效应 所 需 的 条 件 以 及 乘客 
的 要 求 限 制 了 系统 的 调节 范围 。 

因此 ， 接 下 来 的 内 容 将 分 成 3 个 主要 部 分 ,深入 观察 所 发 生 的 效应 以 及 导致 的 
边界 条 件 。 


5.2.1 物理 效应 


主要 物理 效应 是 系统 中 的 闭环 电 声 而 导致 的 反馈 ， 这些 物 理 效应 限制 了 系统 可 
能 的 增益 。 如 果 系 统 增益 过 高 ， 或 者 采取 的 应 对 措施 不 起 作用 ， 这 种 反馈 也 可 能 会 
导致 整个 系统 不 稳定 。 因 此 ， 最 大 的 放大 倍数 只 能 以 这 种 方式 来 定义 : 不 会 由 于 反 
馈 的 出 现 而 产生 刺耳 声 。 正 如 前 面 所 提 到 的 ， 这 种 所 允许 的 最 大 放大 倍数 可 以 通过 
采取 一 些 适 当 的 信号 处 理 技 术 来 提高 ， 如 反馈 抑制 或 均衡 。 

所 使 用 的 所 有 信号 处 理 算法 在 其 计算 复杂 程度 方面 受到 信号 处 理 能 力 的 限制 。 
幸运 的 是 ， 汽 车 信号 处 理 单 元 的 计算 能 力 在 不 断 提 高 ， 而 且 如 今明 显 高 于 第 一 代 免 
提 系 统 开发 期 间 的 计算 能 力 。 从 而 使 得 系统 可 以 采用 更 高 的 采样 频率 和 更 大 的 信号 
宽带 ， 这 也 是 自然 声音 语音 输出 所 不 可 缺少 的 。 但 是 算法 的 复杂 性 仍然 受到 一 定 的 






































$53 车 载 通信 系统 的 评价 69 





限制 ， 并 且 导 致 ICC 系统 设计 时 需要 考虑 的 其 他 边界 条 件 。 此 外 设计 ICC 系统 时 ， 
还 需 考 虑 由 于 电 声 传感器 的 特性 而 产生 的 一 些 限 制 条 件 ， 如 带宽 以 及 送 话 需 的 
位 置 。 


5.2.2 倾听 的 乘客 


ICC 系统 主要 的 目标 是 提高 倾听 的 乘客 收 到 的 语音 清晰 程度 ， 这 可 以 通过 放大 
说 话 乘客 的 语音 信号 以 及 在 倾听 者 耳 边 增加 SNR 来 实现 。 由 于 前 面 已 经 提 到 物理 
限制 ， 这 种 放大 不 能 为 任意 的 高 增益 。 但 实际 上 倾听 者 需要 多 大 的 放大 量 呢 ?对 于 
大 多 数 轿车 而 言 ， 即 使 汽车 在 中 速 或 高 速 下 行驶 ， 后 排 乘 客 与 前 排 乘客 谈话 受到 影 
响 也 不 是 很 大 。 在 使 用 ICC 系统 后 ， 汽 车 会 产生 令 人 费解 的 更 多 回响 ， 从 而 降低 车 
内 前 排 乘客 到 后 排 乘客 之 间 的 对 话 质 量 。 然 而 相反 方向 (从 后 排 到 前 排 ) 的 表现 
却 不 同 。 特 别 是 在 更 高 的 车 速 下 ， 车 内 前 排 乘 客 到 后 排 乘 客 的 对 话 质 量 降 低 得 
更 多 。 

上 述 两 个 对 话 方向 之 间 存 在 质量 差异 ， 其 原因 在 于 人 嘴 说 话 的 方向 性 。 图 5.6 
显示 了 驾驶 员 说 话 时 ， 两 个 频率 范围 的 平均 方向 性 ' 沾 。 此 外 ， 还 给 出 了 传播 给 其 
他 乘客 的 声音 。 对 于 在 1400 ~2000Hz 之 间 的 频率 ， 可 以 测量 到 前 端 (09) 和 头 部 
的 背面 (1809) 之 间 的 衰减 大 于 10dBS2。 由 于 这 种 方向 性 和 车 厢 内 的 乘客 布局 ， 
后 排 乘 客 (尤其 是 正好 坐 在 说 话 乘客 背后 的 人 ) 很 难听 清 前 排 乘 客 说 话 。 

另 一 个 对 放大 倍数 边界 条 件 产生 影响 的 是 背景 噪声 水 平 。 正 如 上 面 所 提 到 的 ， 
背景 噪声 由 不 同 的 声 源 组 成 ， 例 如 发 动机 噪声 、 风 声 和 轮胎 噪声 。 由 于 汽车 在 静止 
状态 或 低速 行驶 时 ， 噪 声 水 平 很 低 ，SNR 相当 高 ， 因 此 也 不 必 使 用 ICC 系统 S。 但 
是 ， 如 果 汽 车 加 速 到 较 高 行驶 速度 ， 所 有 频率 的 背景 噪声 水 平 就 会 增加 到 30dB 以 
上 ， 此 时 使 用 ICC 系统 就 可 以 提高 对 话 质量 。 因 此 ， 根 据 背 景 噪声 的 水 平 ， 需 要 不 
同 的 放大 倍数 来 改善 语音 的 可 理解 性 。 

幸运 的 是 ，ICC 系统 不 必 因 为 背景 噪声 的 增加 来 补偿 整个 SNR 的 下 降 。 由 于 
Lombard 效应 ,在 嘲 杂 的 环境 中 任何 人 说 话 都 会 自动 提高 嗓门 来 提高 交流 的 效 
FR) ， 这 导致 了 整个 语音 水 平 随 着 噪声 水 平 的 增加 而 增加 。 在 参考 文献 [6，10 ] 
中 提 及 ， 噪 声 水 平 每 增加 1dB ， 语 音 功 率 就 会 增加 0.3 ~0.7dB (A 计 权 )。 巾 于 噪 
声 水 平 增加 以 及 更 高 的 语音 水 平 (Lombard 效应 ) ， 相 比 于 汽车 静止 状态 下 ， 该 系 
统 的 放大 倍数 将 提高 6 ~ 12dB (根据 车 辆 的 不 同 而 不 同 ) “1。 

使 用 足够 的 放大 倍数 来 提高 语音 可 理解 性 以 及 乘客 说 与 听 之 间 的 相互 干扰 ， 上 
述 的 所 有 边界 条 件 都 需要 折 囊 考虑。 在 每 一 种 类 型 的 汽车 上 都 需要 找到 其 对 应 的 折 






























































”这 里 没有 涉及 车 厢 的 边界 影响 。 
日 ”对 于 超过 两 排 或 更 多 排 座 椅 的 公共 汽车 以 及 货车 来 说 也 许 不 正确 。 
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后 排 左边 乘客 后 排 中 间 乘 客 后 排 右边 乘客 
图 5.6 一 位 说 话 者 的 头 部 与 车 内 其 他 乘客 的 平均 方向 性 (参考 文献 [8] ) 
RAR. 


为 了 降低 计算 的 复杂 性 ， 系 统 通常 采用 信和 号 块 处 理 方法 ， 这 将 会 产生 几 毫 秒 的 
延 时 。A-D 和 D-A 转换 器 3 、 处 理 单元 之 间 的 信号 传输 2 、 用 于 扬声器 和 送 话 器 的 
放大 器 以 及 声音 传播 路 径 S 都 会 造成 进一步 的 延 时 。 如 果 整 体 延 时 超过 15 ~ 20ms, 
倾听 者 就 可 以 明显 感觉 到 两 个 声 源 (来 自 说 话 乘 客 的 直接 声波 和 来 自 ICC 系统 的 
第 二 个 波 前 )， 此 时 听 起 来 让 人 烦恼 。 因 此 ， 应 保持 尽 可 能 低 的 延 时 。 

由 于 延 时 ， 产 生 了 另外 一 个 不 好 的 效果 : 视觉 和 听觉 来 源 的 不 匹配 问题 ， 尤 其 
是 位 于 后 排 倾听 的 乘客 。 产 生 这 种 效果 的 原因 ， 就 是 因为 位 于 后 部 的 扬 声 央 通常 在 
倾听 者 的 后 面 ， 例 如 在 背 架 上 。 如 果 产 生 的 语音 信号 放大 倍数 较 大 ， 倾 听 者 就 会 有 
一 种 说 话 人 位 于 他 们 后 面 的 (声学 ) 感觉 。 这 种 声学 上 感觉 的 说 话 者 位 置 与 说 话 
者 实际 位 置 的 不 相符 ,使 人 对 交流 产生 一 种 不 自然 的 感觉 。 为 解决 这 个 问题 ， 后 排 














O 通常 音频 处 理 过 程 中 会 使 用 o- 8 转换 器 ,这 种 类 型 的 转换 器 ， 在 D-A 和 A-D 转换 模式 下 ， 都 会 导致 


0.3 ~0.7ms 的 延 时 。 


O 延 时 是 



































理 的 处 








1 于 要 完成 足够 多 的 取样 所 引起 的 等 待 ,以 便 将 其 作为 一 个 信息 块 移动 。 这 有 助 于 减少 中 断 处 
理 负荷 。 











日 ”扬声器 与 倾听 者 耳 休 之 间 的 距离 达到 1m 就 会 产生 大 约 3ms 的 延 时 (假设 声音 的 传播 速度 为 340m/s) 。 
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扬声器 的 增益 不 得 不 依靠 两 个 声 源 之 间 的 延 时 来 加 以 限制 。 位 置 不 符 效 应 刚刚 出 现 
时 的 放大 量 被 称 作 “优先 效应 ”5 。 在 10 ~20ms 的 延 时 下 ，ICC 系统 可 以 获得 最 
大 放大 倍数 。 非 常 低 的 延 时 将 使 第 二 个 信号 在 不 影响 空间 定位 的 情况 下 ， 不 高 于 第 
一 个 信和 号。 其 结果 就 是 ， 允 许 低 阶 ( 低 延 时 ) 块 处 理 所 产 生 的 延 时 ， 该 处 理 结 构 
提供 的 优点 能 够 被 利用 。 

然而 ， 在 噪声 非常 高 的 情况 下 ， 倾 听 者 对 位 置 不 符 就 不 是 那么 关心 ， 因 为 此 时 
更 多 是 通过 增 大 增益 来 改善 整个 对 话 。 这 引起 了 一 系列 的 问题 ， 如 果 人 允许 对 优先 效 
应 曲线 存在 小 的 干涉 ， 那 么 仍然 可 以 实现 良好 的 对 话 。 提 出 的 问题 和 答案 就 是 : 倾 
听 者 是 否 更 愿意 通过 增加 系统 增益 以 得 到 更 高 的 语音 可 理解 性 ， 而 不 是 关心 感知 的 
位 置 是 否 正确 。 到 现在 为 止 ， 还 没有 详细 的 信息 或 出 版 刊物 讨论 这 个 话题 。 

另 一 个 重要 的 问题 就 是 ，ICC 系统 所 记录 声音 信号 的 再 现 ， 会 增加 整体 的 噪声 
水 平 。 送 话 需 记 录 说 话 者 语音 信号 时 ， 会 被 背景 噪声 破坏 。 尽 管 使 用 了 各 种 降 噪 的 
方法 来 提高 信号 质量 ， 但 剩余 的 噪声 分 量 仍 有 可 能 被 放大 并 在 扬声器 中 回放 ， 这 就 
可 能 产生 不 希望 的 SCR 降低 。 最 坏 的 情况 ， 残 余 噪 声 分 量 一 直 在 波动 ， 而 且 倾听 
者 会 受到 因 启 动 ICC 系统 而 产生 变化 的 噪声 水 平 的 打扰 。 结 果 是 ，ICC 系统 的 增益 
和 噪声 抑制 的 最 大 衰减 量 不 得 不 进行 调整 ， 使 得 噪声 水 平 不 增加 ， 因 ICC 系统 产生 
的 噪声 水 平 波动 也 不 会 被 倾听 者 察觉 到 。 


5.2.3 说 话 的 乘客 


说 话 的 乘客 对 ICC 系统 有 一 个 这 样 的 要 求 : 不 想 感 觉 到 这 个 系统 的 存在 2。 对 
于 说 话 者 ， 理 想 的 情况 是 ， 车 厢 内 无 论 是 否 安装 有 一 个 ICC 系统 ， 对 话 情况 都 是 一 
样 的 。 但 是 ， 由 于 语音 信号 被 ICC 系统 放大 ， 并 通过 扬 声 融 播放 ， 说 话 者 在 说 话 的 
时 候 可 能 会 听 到 自己 讲话 。 这 种 效果 与 ICC 系统 的 增益 和 延 时 时 间 相 关 ， 如 果 延 时 
时 间 太 长 ， 即 使 在 低 增益 下 ， 说 话 者 也 将 会 听 到 自己 讲话 的 回声 。 

最 后 应 该 提 及 ICC 系统 增 大 回响 的 程度 。 其 增 大 的 程度 也 取决 于 系统 的 延 时 和 
增益 ， 且 延 时 和 增益 越 大 ， 回 响 增 大 的 程度 越 大 。 如 果 对 话 质 量 能 够 增加 ， 这 种 效 
果 在 一 定 的 程度 上 可 以 允许 。 然 而 ， 如 果 回 响 时 间 增 加 到 80 ~140ms (这 取决 于 车 
的 类 型 ) ， 乘 客 就 可 能 开始 抱怨 汽车 回响 的 品质 器 。 
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5.3 ”车 载 通信 系统 的 信号 处 理 


正如 本 章 前 面 所 叙述 的 ， 如 果 要 研究 合适 的 评 佑 步骤， 有 必要 了 解 ICC 系统 相 























加 ”从 倾听 者 的 角度 这 名 话 可 以 做 少许 修改 :除非 系统 关闭 ， 和 否则 倾听 者 也 不 应 该 感觉 到 ICC 系统 正在 运 
行 〈 就 空间 定位 、 回 响 和 噪声 增加 等 方面 而 言 ) 。 
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关 信 和 号 处 理 单 元 的 一 些 基 本 知识 。 鉴 于 此 原因 ， 在 详细 讨论 接 下 来 的 细节 之 前 ， 我 
们 将 简短 地 描述 图 5. 5 中 的 单个 信号 处 理 模 块 。 


5.3.1 分 析 和 合成 滤波 器 组 


在 低频 率 范 围 内 ， 车 内 典型 的 背景 噪声 与 语音 分 量 相 比 ， 占 据 更 主要 的 地 位 ， 
因此 所 有 送 话 需 都 使 用 高 通 滤波 句 作 为 第 一 处 理 阶段 ， 如 图 5.7 所 示 。 根 据 使 用 者 
的 个 人 喜好 以 及 汽车 的 类 型 (运动 轿车 的 频率 较 高 ， 轿 车 和 货车 的 频率 较 低 ) ， 高 
通 滤波 器 的 截止 频率 可 选择 在 80 ~300Hz 之 间 。 














ooo 





倾听 者 使 用 的 
送 话 器 波谱 
Mim | 高 通 滤波 器 。 预 加 重 滤波 器 n L B 
信号 分 析 ( 消 波 和 说 话 者 的 送 话 器 波谱 


故障 检测 ) 


ooo 


Fd 5.7 预 人 处理 和 分 析 滤 波 带 组 











假定 一 些 信 号 处 理 组件 ， 如 反馈 和 回声 消除 或 自 适应 波束 形成 ( 这些 单 元 将 
在 以 下 部 分 中 进行 描述 ) ， 在 车 内 的 扬声器 和 送 话 融 之 间 进 行 线性 传输 。 如 果 送 话 
器 产生 削 波 ， 这 种 假设 肯定 不 成 立 。 为 了 消除 这 些 ， 例 如 在 消除 滤波 器 的 适应 阶 
段 ， 每 一 个 送 话 器 不 仅 要 进行 削 波 检测 分 析 ， 还 要 进行 整体 故障 原因 分 析 ， 如 送 话 
器 放大 器 电源 的 故障 分 析 。 如 果 检 测 到 送 话 器 的 故障 ， 在 后 续 处 理 中 将 排除 这 个 传 
IRAE o 

Ty SES TUR DBC it Jr Js AA SECUS DRE i ARAE TS ee AL, HE ET En 
AINERE TERREA, H DAD UR IBC ait BO R OORT f E AR 
Pi, ROR AEA BRE, WE aes nA AA aL. UII 
重 和 相应 的 去 加 重 滤 波 器 ， 有 助 于 以 最 好 的 方式 来 利用 滤波 器 组 有 限 的 频谱 分 
BER 

最 后 ， 将 送 话 器 信号 的 谱 分 为 两 大 类 : 第 一 类 波谱 ， 用 于 增强 说 话 乘客 信和 号 的 
处 理 单元 ; 第 二 类 波谱 ， 用 于 调整 算法 组 件 ， 以 提高 倾听 者 扬 声 絮 播放 的 质量 。 如 
图 5.4 所 示 ， 假 设 安装 有 7 个 送 话 右 ， 那 么 仅仅 应 该 支持 由 前 到 后 的 对 话 ，4 个 前 
置 送 话 器 将 被 作为 一 个 “说 话 者 使 用 的 ”组 ，3 个 后 置 送 话 器 ， 将 用 于 评估 后 排 每 
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一 个 座位 的 背景 噪声 水 平 。 评 估 后 的 噪声 水 平 可 以 用 于 确定 合适 的 播放 音量 。 
此 ，3 个 后 置 送 话 器 可 以 作为 一 个 “倾听 者 使 用 的 ”组 。 

图 5. 8 描述 了 ICC 系统 合成 的 部 分 。 第 一 步 ， 扬 声 器 信号 的 波谱 由 一 个 合适 的 
滤波 需 组 变换 到 时 域 。 正 如 前 面 所 提 到 的 ， 需 要 特别 注意 参考 文献 [12，13] 中 
描述 的 低 延 时 的 方法 。 


ooo ooo 扬声器 
低 延 时 合 = 
延 时 合 去 加 重 时 域 均衡 线性 和 时 变 EE 
增强 型 扬 | 成 滤波 器 组 滤波 器 BWER UN 
声 器 声 | 


H 


] 
pem 
ooo goo 不 相关 部 分 


图 5.8 合成 滤波 器 组 和 时 域 的 后 处 理 












如 果 在 分 析 滤 波 器 组 之 前 使 用 一 个 预 加 重 滤波 器 ， 那 么 在 相应 的 合成 滤波 
带 组 之 后 要 进行 逆 计 算 。 此 外 ， 每 一 个 扬 声 带 都 可 能 被 均衡 化 处 理 ， 无 论 是 在 
频率 响应 中 校正 干扰 脉动 ， 还 是 送 话 器 最 大 反馈 时 衰减 的 那些 频率 。 均 衡 可 以 
在 时 域 中 应 用 , 例如 借助 于 全 通 为 基础 的 结构 装置 ( Allpass- based struc- 
tures)! ， 或 者 通过 加 权 因 子 的 方法 在 子 带 域 中 应 用 ， 或 者 是 两 者 的 结合 。 如 
果 要 开发 空间 效果 ， 那 么 每 个 扬声器 都 需要 一 定 的 延 时 ， 同 时 可 能 需要 为 每 个 
扬声器 单独 调节 延 时 。 

最 后 ， 可 以 采用 降低 扬声器 信和 号 之 间 的 互相 关 来 进行 信号 处 理 。 如 果 从 扬 声 骨 
到 送 话 器 的 反馈 和 回声 路 径 可 以 分 别 确定 ， 这 一 点 特别 重要 。 如 果 扬 声 器 的 信号 完 
全 相关 ( 测 到 的 互相 关 值 接近 1) ，MIMOS 系 统 识别 问题 的 解决 方案 便 不 是 惟 
一 的 。 

为 了 减少 相关 性 ， 非 线性 或 时 变 的 处 理 可 以 作为 从 立体 声 或 多 声 道 回 波 抵消 得 
到 的 已 知 条 件 来 加 以 应 用 :2 。 对 于 这 种 类 型 的 后 处 理 ， 通 常 需要 在 可 听信 和 号 失真 
和 相关 性 的 显著 降低 两 者 之 间 寻 找到 一 个 折衷 。 

合成 滤波 器 组 和 后 处 理 单元 产生 两 种 类 型 的 输出 信号 : 那些 包含 了 所 有 信和 号 分 
量 和 那些 只 包含 不 相关 信号 的 部 分 (例如 非 线 性 处 理 单元 输入 和 输出 的 相 减 来 计 
算 ) 。 第 一 个 提 及 的 输出 是 用 于 车 内 安装 的 扬声器 的 播放 。 不 相关 信号 ， 用 于 计算 
反馈 或 回声 消除 中 系统 识别 算法 的 更 新 条 件 。 由 于 两 个 输出 类 型 在 子 带 域 中 都 需 
要 ， 因 此 后 面 需要 使 用 分 析 滤 波 需 组 ( 见 图 5.5)。 















































O MIMO 是 多 输入 多 输出 的 缩 略 语 。 
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5.3.2 送 话 器 的 处 理 


所 有 送 话 右 信 号 转换 为 子 带 域 (或 频 域 ) 后 ， 将 通过 回声 和 反馈 消除 来 增强 。 
我 们 将 位 于 送 话 器 附近 扬声器 的 信号 取消 作为 抵消 回 波 。 这 些 扬声器 ， 通 常情 况 下 
不 会 播放 作为 送 话 器 信号 的 主要 信号 一 一 说 话 者 的 语音 信号 。 由 送 话 器 发 出 且 分 配 
到 其 他 座位 扬声器 的 信号 ， 通 常情 况 下 会 包含 这 种 信号 成 分 ， 因 此 我 们 称 这 样 的 信 
号 补偿 为 反馈 消除 。 应 用 在 所 有 送 话 絮 中 关于 子 带 域 信号 处 理 的 概述 如 图 5. 9 所 示 。 

由 于 回声 和 反馈 消除 不 能 保证 一 定 的 失真 减 小 量 ， 通 常 消除 单元 后 面 会 应 用 像 
Wiener 一 样 的 抑制 滤波 器 “1 。 为 了 调整 滤波 器 的 权 值 ， 就 短期 功率 谱 密 度 而 言 ， 
需要 评估 残留 回 波 和 残余 的 反馈 元 件 。 这 可 以 通过 参考 文献 [18, 19] 中 提 到 的 
音频 信号 的 回响 去 除 方法 来 实现 。 

此 外 ,静止 的 背景 噪声 ?以 及 所 谓 的 风声 (由 送 话 器 上 的 注 流 气流 而 引起 
的 失真 ) 77 可 以 通过 频谱 加 权 的 方法 抑制 。 如 果 只 采用 一 个 信号 组 合 ， 那 么 根据 
“最 佳 SNR 优先 ”准则 ， 每 个 送 话 融 的 加 权 因子 都 可 以 单独 调节 。 但 是 ， 如 果 之 后 
要 采用 波束 形成 ， 那么 就 要 确保 相同 的 加 权 因 子 应 用 到 所 有 的 送 话 融 信号 上 ， 或 者 
加 权 应 用 到 波束 形成 器 的 输出 频谱 上 。 
风 冲 击 检测 



























(剩余 ) 失真 (BR 
声 , 回声 , 反馈 ) 抑制 


残余 回声 和 
反馈 评估 


回声 和 反馈 
消除 GIW) 





扬声器 波谱 的 不 相关 部 分 
图 5.9 所 有 送 话 吉 的 信号 处 理 


5.3.3 说 话 者 特定 座 椅 的 信号 处 理 
增强 型 送 话 需 波谱 被 分 配 到 下 一 处 理 阶 段 的 单个 座位 上 ， 也 可 以 采用 重叠 的 方 


第 5 章 车 载 通信 系统 的 评价 75 





式 来 实现 。 例 如 图 5.4 中 所 示 的 三 个 后 排 送 话 右 ， 可 以 分 配给 所 有 的 后 排 三 个 座 
椅 。 在 下 一 个 处 理 阶段 ， 对 三 个 波束 成 形 加 以 计算 ， 每 个 分 别 转向 后 排 乘 员 中 的 一 
个 ( 见 图 5.10)。 


噪声 评估 L 语音 活动 检测 








信号 组 合 (如 波束 
成 形 或 送 话 器 的 选择 ) 


PRONUS 8 根据 座位 


“说 话 ” 座 位 特 
话 器 波谱 8 选择 送 话 器 定 的 波谱 





定位 


图 5.10 说 话 者 针对 的 特定 座 椅 的 信号 人 处理 


由 于 每 个 乘客 的 大 概 位 置 是 事先 已 知 的 ， 因 此 可 以 通过 合适 的 定位 方法 来 
改进 波束 形成 器 的 转向 方向 ” 。 当 然 ， 也 可 以 采用 选择 单个 送 话 器 的 方法 。 
在 大 多 数 情况 下 ， 会 从 所 有 分 配 的 送 话 豆 中 选择 具有 最 佳 SNR fe ids B xS i 
器 。 通 常情 况 下 ， 是 最 靠近 所 分 配 乘客 的 那个 送 话 器 。 但 是 ， 如 果 这 个 送 话 器 
信和 号 受到 局 部 噪声 〈 例 如 ， 由 于 打开 窗口 或 空调 需 而 产生 的 品 声 ) 、 风 的 冲击 
或 者 扬声器 发 出 的 信和 号 的 影响 ,使 用 具有 最 佳 SNR 而 不 是 最 靠近 的 送 话 顺 会 
更 好 。 

将 分 配给 一 个 特定 座 椅 的 所 有 送 话 器 信号 合成 为 单一 信号 后 ， 便 可 以 单独 检测 
到 每 一 个 座位 上 的 语音 活动 。 为 实现 这 一 点 ， 需 要 评估 当前 背景 噪声 水 平 以 及 短 时 
内 的 SNR。 通 过 分 别 比 较 单独 的 SNR 以 及 噪声 和 语音 水 平 ， 便 可 以 实现 可 靠 的 语 
音 活动 检测 。 在 后 面 的 信号 处 理 阶 段 ， 将 会 使 用 这 个 检测 单元 的 结果 。 为 清楚 起 
见 ， 几 5.5 中 未 摘 绘 出 该 信号 的 概览 图 。 


5.3.4 针对 倾听 者 的 特定 座 椅 的 信号 处 理 


图 5.5 所 示 名 为 “特定 座 棒 处 理 ”( 对 倾听 者 而 言 ) 的 处 理 单元 ， 包 含 两 个 阶 
段 的 信号 映射 。 在 第 一 阶段 ， 说 话 者 的 信号 映射 到 为 倾听 者 播放 的 信号 上 。 一 般 情 
况 下 ， 说 话 者 的 信号 不 会 耦合 到 自己 座位 上 播放 的 信道 上 。 此 外 ， 相 对 于 距离 倾听 
者 较 远 的 乘客 ， 靠 近 倾 听 者 的 说 话 者 的 信号 ， 映 射 时 具有 更 低 的 增益 。 最 后 一 条 规 
则 是 ， 为 保持 尽 可 能 小 的 混 响 ， 将 会 减 小 没有 语音 活动 说 话 者 的 声音 几 分 贝 
(dB) 。 出 于 这 个 原因 ， 第 一 个 映射 单元 仍然 与 图 5.11 所 述 的 语音 活动 检测 相 
连接 。 

第 二 个 映射 单元 ， 用 于 将 单独 座 椅 上 的 信号 分 配 到 指定 的 扬声器 上 。 由 于 不 同 
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的 扬 声 需 一 送 话 吉 信号 线路 对 反馈 的 鲁 棒 性 不 同 ， 每 个 扬声器 都 应 该 单独 地 实现 这 
种 映射 。 

此 外 ， 对 于 每 一 个 座 椅 和 指定 的 扬声器 ， 都 会 通过 分 析 特 定 座 椅 的 噪声 水 平 
(也 在 此 处 理 单元 内 评估 ) 来 计算 其 专用 的 播放 音量 。 这 有 利于 为 每 个 座 棒 单 独 计 
算 因 不 同 水 平 的 噪声 而 变化 的 增益 控制 ， 因 为 不 同 座 椅 的 噪声 水 平 也 会 显著 变化 ， 
例如 在 窗户 打开 或 不 同 背 景 音 乐 播放 的 情况 下 都 会 有 变化 2 。 如 果 要 在 特定 扬声器 
中 实现 增益 的 调整 ， 那 么 这 种 增益 调整 通常 在 信号 映射 的 两 个 阶段 之 间 ， 或 在 第 二 
个 信号 映射 阶段 。 为 了 得 到 青 景 噪声 的 可 靠 评 佑 ， 便 需要 使 用 位 于 倾听 者 位 置 附近 
的 那些 送 话 器 。 如 果 是 非 对 称 设置 ， 例 如 ， 如 果 仅 支持 由 前 到 后 的 对 话 ， 由 于 只 需 
要 对 背景 噪声 的 低频 部 分 做 一 个 粗略 的 评估 ,那么 那些 送 话 器 便 可 以 使 用 比较 低 的 
采样 频率 。 

















“说 话 者 ”座位 
上 的 语音 活动 







特定 座 椅 “ 说 
话 者 ”语音 波谱 


扬声器 波谱 
[——) $C)  L— 
映射 (说 话 H (AEH 
者 对 倾听 者) pu 


NEES M 全 可 组 人 
听 者 ”的 波谱 (如 波束 成 pe 
形 或 送 话 
器 的 选择 ) 


图 5.11 倾听 者 特定 座 棒 的 信号 处 理 





5.3.5 特定 扬声器 的 信号 处 理 


作为 最 后 的 处 理 单元 ， 图 5. 12 对 扬声器 的 具体 处 理 做 了 说 明 。 如 前 面 所 提 到 
的 ， 根 据 子 带 域 中 实 值 权重 得 到 的 零 相位 均衡 ， 在 扬 声 带 信 号 播放 前 加 以 应 用 。 如 
果 和 忽略 分 析 和 合成 滤波 带 组 的 复杂 性 ， 这 种 类 型 的 均衡 通常 比 等 效 的 时 域 结构 更 为 
简易 。 扬 声带 均衡 的 目标 有 多 方面 : 

e 中 音 扬声器 和 高 音 扬声器 需要 在 适当 的 频率 范围 内 ; 




















O 在 运行 ICC 系统 时 ,通常 会 允许 播放 CD 或 收音 机 。 为 了 使 语音 对 话 较为 舒适 ， 音 频 组 件 的 整体 播放 
水 平 会 降低 。 
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| l 
v m 
| 频 域 均衡 器 频 域 延迟 | 


图 5.12 针对 扬声器 的 信号 处 理 


© 允许 修改 以 获得 更 好 的 语音 印象 ; 

。 反馈 属性 优化 〈 在 送 话 器 发 生 最 大 耦合 的 频率 处 ， 减 小 增益 ) 。 

如 果 适 当 的 延 时 调整 可 以 实现 高 精度 的 空间 效果 ,在 3. 1 节 中 的 时 域 延 时 可 以 
与 子 带 域 中 的 频率 选择 性 相 移 结合 ,在 时 域 中 , 已 经 引入 了 样本 方面 的 延迟 舍 入 
5, 样品 的 剩余 部 分 可 以 作为 相 移 来 实现 。 











5.4 ICC 系统 相关 的 评估 类 型 


如 果 以 另外 一 种 客观 的 方式 来 评估 ICC 系统 ， 通 常会 针对 不 同 的 情况 ， 在 启动 
与 关闭 系统 的 情况 下 ， 比 较 SNR 或 其 他 措施 。 这 种 比较 方法 通常 很 方便 ， 可 以 突 
出 ICC 系统 的 优势 。 然 而 ， 为 了 评估 系统 的 其 他 特性 ， 例 如 回响 时 间 ， 除 了 激活 这 
种 类 型 外 ， 另 外 一 种 停 用 的 系统 类 型 也 是 需要 的 。 

根据 ICC 系统 脉冲 响应 ， 可 以 采取 一 些 实际 措施 。 然 而 ， 脉 冲 系统 仅仅 是 定义 
在 线性 时 不 变 系 统 内 ， 而 ICC 系统 显然 不 是 。 因 此 ， 我 们 引进 了 “冷冻 ”系统 ， 
必须 禁用 或 停止 ICC 系统 中 所 有 的 非 线 性 与 自 适 应 (随时 间 而 变化 ) 的 元 素 。 当 
然 ， 这样 一 个 系统 无 法 全 部 反映 出 使 用 ICC 系统 所 获得 的 性 能 改善 ， 但 是 能 够 对 该 
系统 的 当前 状态 进行 分 类 ， 并 计算 出 一 些 性 质 。 这 些 方法 可 以 用 于 与 其 他 时 间 的 例 
子 或 其 他 的 ICC 系统 相对 比 。 

评估 过 程 的 另 一 个 有 意思 的 问题 是 : 真正 的 系统 与 最 佳 的 系统 相差 多 远 。 要 回 
答 这 个 问题 ， 必 须 先 定义 一 个 理想 的 系统 。 理 想 系统 的 真实 想法 是 ， 将 完善 的 送 话 
器 信号 作为 ICC 系统 的 输入 信号 ， 即 没有 任何 反馈 和 噪声 分 量 。 图 5. 13 对 这 个 理 
想 系统 进行 了 描述 。 将 语音 信号 馈送 到 “人 造 嘴 ” 扬 声 器 2 来 模拟 说 话 者 。 为 了 实 
现 和 车 内 乘客 说 话 相 同 的 语音 频谱 ， 从 数据 库 中 提取 的 语音 信号 只 能 是 针对 特定 车 
辆 进行 均衡 化 来 获取 自然 的 人 工 语 音信 和 号。 此外， 如 果 汽 车 在 行驶 的 过 程 中 使 用 了 
系统 重 放 语音 ， 那 么 语音 数据 库 应 该 包括 能 够 重 现 Lombard 效应 (Lombard effect) 
的 语音 。 该 信号 将 通过 “人 造 嘴 ” 播 放 来 模拟 前 排 座 椅 上 的 说 话 者 ， 并 被 传送 到 


























O 扬声器 带 有 与 人 的 头 部 相似 的 辐射 场 型 。 
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模拟 乘客 舱 。 此 模拟 器 件 能 够 模拟 经 由 送 话 器 从 人 工 嘴 扬 声 器 到 ICC 系统 的 信号 传 
输 。 此 外 ， 该 器 件 还 允许 添加 有 特征 的 汽车 噪声 ， 以 确保 依赖 于 背景 噪声 水 平 的 算 
法 组 件 ， 如 噪声 相关 控制 增益 ， 像 在 真实 场景 中 一 样 工作 。 和 车 厢 的 模拟 输出 替换 了 
原来 的 送 话 器 ， 并 用 于 ICC 系统 的 输入 。 最 后 ， 以 这 种 方式 设计 的 系统 没有 任何 的 
反馈 和 可 调 的 噪声 水 平 。 因 此 ， 它 反映 的 是 语音 可 理解 性 改进 所 能 达到 的 上 限 。 同 
样 ， 关 闭 系统 时 得 到 的 就 是 下 限 值 。 











ÆJ 
扬声器 


送 话 器 AA 





| 车 载 通信 系统 a 
| | 
带 有 Lombard 数 
据 的 语音 数据 


图 5.13 理想 ICC AS: 送 话 需 信 号 被 一 个 清晰 的 语音 信和 号 
与 适当 的 脉冲 响应 的 卷 积 所 取代 








5.5 车 载 通信 系统 的 评估 


第 一 种 直观 评 佑 ICC 系统 的 方法 ， 是 简单 地 对 对 象 进行 测试 并 评估 系统 ， 这 种 
测试 方法 叫做 主观 方法 。 由 于 需要 大 量 的 测试 对 象 来 对 系统 进行 评估 以 获得 代表 性 
的 结果 ， 这 些 测 试 相当 昂贵 。 此 外 ， 在 经 验 阶 段 之 后 ， 评 估 过 程 需 要 以 适当 的 方式 


第 5 章 车 载 通信 系统 的 评价 79 





来 定义 。 这 种 主观 测试 有 一 个 很 大 的 优势 : 如 果 测 试 科目 组 选择 足够 多 的 主题 和 调 
查 问 卷 ， 这 些 测试 对 对 话 情况 给 出 一 个 有 意义 的 评估 。 

然而 ,需要 其 他 一 些 费 用 更 低 、 更 容易 再 现 和 更 可 靠 的 方法 ， 这 种 方法 就 是 一 
般 的 客观 试验 方法 。 为 了 采用 客观 的 方法 来 评估 ICC 系统 ， 需 要 在 开始 的 时 候 检查 
两 个 主要 问题 : 

。 哪些 因素 可 以 改善 乘客 之 间 的 对 话 ; 

。 哪些 因素 会 破坏 乘客 之 间 的 对 话 。 

在 对 话 中 至 少 要 有 两 个 人 ， 基 于 这 样 的 事实 ， 评 佑 ICC 系统 不 仅 是 针对 倾听 
者 ， 还 要 针对 说 话 的 一 方 。 当 然 ， 这 两 个 对 话 的 双方 对 系统 会 有 不 同 的 要 求 ， 因 此 
需要 检测 不 同 的 因素 。 

正如 5. 1 节 所 说 的 ， 到 现在 为 止 ， 还 没有 一 个 能 够 评估 ICC 系统 的 清晰 标准 存 
在 ,尽管 存在 用 于 评估 语音 或 音频 编 解 码 器 或 免 提 系统 “| 的 标准 。 参 考 文献 
[27] 以 一 种 客观 的 方式 ， 对 ICC 系统 的 性 能 分 析 做 了 首次 客观 的 调查 。 因 此 ， 在 
以 下 的 部 分 ， 描 述 了 如 何 评价 这 里 所 介绍 的 ICC 系统 的 首选 方法 和 思想 。 为 了 这 个 
目的 ， 需 要 考虑 3 个 主要 议题 : 

。 首先 ， 通 过 主观 的 方法 评估 倾听 者 的 改善 ; 

。 其 次 ， 对 收听 质量 评估 的 客观 方法 进行 研究 ; 

e 最 后 ， 描 述 了 由 于 使 用 ICC 系统 所 引起 的 确定 倾听 者 和 说 话 者 之 间 对 话 质 
量 下 降 的 方法 。 


5.5.1 倾听 者 接收 信号 质量 改进 


倾听 者 的 听觉 感 受 对 ICC 系统 的 评估 质量 有 很 大 的 影响 。 这 是 在 该 系统 用 于 提 
高 乘客 对 话 质量 的 事实 基础 上 建立 的 。 正 因为 如 此 ， 与 说 话 者 相 比 ， 对 这 位 乘客 的 
评价 是 更 广泛 的 、 更 多 元 化 的 〈 见 5.3 节 )。 

5.5.1.1 主观 方法 

为 了 确定 倾听 者 语音 质量 和 语音 可 理解 性 的 改进 ， 至 少 可 以 采用 两 种 主观 
方法 : 

。 通过 诊断 或 修改 不 韵 的 试验 来 测量 语音 可 理解 性 的 变化 衬 ] 。 这 些 测试 使 用 
了 一 系列 押韵 的 词语 ， 例 如 游戏 (game) 和 名 称 (name) ,来 专注 于 每 一 个 音节 的 
可 理解 性 。 

。 使 用 所 谓 的 “比较 平均 意见 得 分 ” (CMOS) 试验 ， 可 以 推导 出 语音 质 
量 '”1。 在 这 里 ， 我 们 使 用 著名 的 短 句 进行 测试 。 这 将 使 收听 主体 专注 于 以 下 因素 ， 
如 工件 、 回 响 或 者 影响 语音 质量 的 语音 的 自然 度 。 

为 了 要 创造 一 个 类 似 的 测试 情景 ， 这 个 测试 情景 对 每 一 个 测试 对 象 都 是 相同 
的 ,测试 的 短语 或 单词 都 通过 位 于 乘客 座 椅 上 的 “人 工 嘴 ” 扬 声 器 来 播放 。 这 种 
情景 会 被 乘客 耳 打 上 的 双 声 道 送 话 嚣 记录， 而 乘客 便 坐 在 “人 工 嘴 ”扬声器 后 面 ， 
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如 图 5. 14 所 示 。 在 录制 过 程 中 ， 汽 车 会 以 几 个 不 同 的 速度 行驶 。 每 一 个 测试 对 象 
统一 聆听 感受 ， 通 过 一 对 校准 的 耳机 所 提供 的 双 声 道 录 制 的 信号 再 现 。9 

主观 测试 的 结果 依赖 于 各 种 边界 条 件 。 例 如 ， 一 组 受过 良好 教育 〈 就 声学 分 
析 而 言 ) 的 人 进行 科目 测试 ， 和 非 专业 组 的 对 比 会 产生 不 同 的 结果 。 其 他 的 影响 
因素 是 受 试 者 的 性 别 和 年 龄 。 




















测量 系统 


4N 


“人 造 n" 
扬声器 
送 话 器 





车 载 通信 系统 








图 5.14 车 载 通信 系统 的 测量 与 评估 





使 用 4 种 不 同 的 方案 进行 押韵 测试 和 CMOS 测试 !'9 : 激活 ICC 系统 以 及 没有 任 
何 系统 支持 所 进行 的 测试 ， 都 需要 在 静止 和 约 130km/h 的 速度 下 进行 9。“ 理 想 ” 
系统 和 “冷冻 ”系统 不 在 这 种 特殊 情形 考虑 范围 之 内 。 

为 了 进行 押韵 测试 ， 首 先 对 押韵 的 词 对 进行 可 视 化 (通过 计算 机 屏幕 呈现 ) ， 
然后 随机 选择 其 中 一 个 词 并 通过 耳机 播放 。 随 后 ， 测 试 对 象 决 定 哪 个 词 的 声音 需 
再 现 。 




















O ”如果 在 测试 过 程 中 ,测试 对 象 坐 在 车 内 ， 很 难 确保 在 所 有 测试 中 都 提供 相同 的 背景 噪声 。 出 于 这 个 原 
寻 ， 我 们 决定 录制 和 使 用 校准 的 播放 设备 ， 而 不 是 现场 测试 。 
日” 这 里 描述 的 主观 测试 ,是 在 使 用 不 同 的 ICC 系统 的 情况 下 ， 而 不 是 在 本 章 所 描述 的 、 并 已 经 使 用 的 客 
观测 试 。 
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由 于 用 于 测试 的 ICC 系统 根据 当前 背景 噪声 的 水 平 来 调整 其 放大 倍数 ， 可 以 假 
定 在 静止 条 件 下 ， 在 语音 可 理解 性 方面 没有 任何 改进 。 这 也 可 以 从 押韵 试验 的 结 
得 出 结论 。 分 析 12 个 测试 对 象 的 结果 ， 每 个 人 对 40 对 押韵 的 词 进行 投票 ， 显 示 汽 
车 静止 状态 下 使 用 和 不 使 用 ICC 系统 没有 显著 的 差异 。 然 而 ， 汽 车 速度 在 130km/h 
下 ， 通 过 激活 ICC 系统 ， 正 确 理解 单词 的 数量 大 幅 增 加 "| 。 

与 押韵 测 斌 类似， 同样 来 进行 CMOS 测试 。 首 先 ， 根 据 不 同 的 情况 在 车 内 对 测 
试 短语 进行 录音 ， 之 后 通过 一 对 经 过 校准 的 耳机 播放 给 受 试 者 。 为 了 获得 直观 的 比 
较 ， 即 打开 和 关闭 ICC 系统 ， 以 信号 对 的 形式 来 播放 音频 文件 。 在 这 种 情况 下 ， 测 
试 人 员 要 对 听 到 的 两 个 情景 划分 为 7 个 等 级 水 平 ， 即 特别 糟糕 、 糟 糕 、 略 差 、 大 致 
相同 、 稍 好 、 好 和 更 好 。 同 样 的 ， 这 种 测试 也 能 反映 汽车 在 静止 状态 下 ，ICC 系统 
没有 必要 ， 此 外 它 还 有 可 能 干扰 车 厢 内 的 乘客 。 然 而 ， 当 汽车 以 更 高 的 速度 行驶 
时 ， 结 果 表 明 测 试 人 员 更 愿意 使 用 ICC ASE, KA 90% 的 人 在 130km/h 的 速度 
下 愿意 使 用 ICC 系统 。 更 详细 的 有 关 主 观测 试 以 及 其 他 结果 的 信息 请 参见 参考 文 
献 [6]。 

5.5.1.2 客观 方法 

通过 两 种 主观 方法 评估 系统 后 ， 由 于 使 用 ICC 系统 而 改善 对 话 质量 应 通过 客观 
的 方法 来 定义 。 

在 本 节 的 开始 部 分 ， 通 过 分 析 脉 冲 响应 来 评价 ICC 系统 ; 第 二 部 分 是 针对 倾听 
者 的 SNR 改进 的 检测 。 最 后 一 个 主题 是 对 语音 传输 系数 的 决定 。 

1. 脉冲 响应 分 析 

对 于 使 用 ICC 系统 ， 脉 冲 响应 或 者 是 频率 响应 可 以 用 作 表 征 改善 或 降低 语音 质 
量 的 首 个 指标 。 为 了 达到 这 一 目的 ， 需 要 在 使 用 和 不 使 用 ICC 系统 的 条 件 下 ， 测 定 
从 说 话 者 的 口中 到 倾听 者 的 耳 人 条 中 的 脉冲 响应 。 

为 了 测量 脉冲 响应 ， 通 过 一 个 测试 信号 ， 例 如 白 噪声 ， 来 激发 5.4 节 中 所 提 到 
的 “冷冻 ”系统 ， 并 对 双 声 道 送 话 器 的 输出 进行 录音 中 。 由 于 某 些 元 素 被 停止 和 
停 用 ， 因 此 创造 一 个 非常 合适 的 测试 信号 很 重要 ， 该 信号 将 激励 所 有 的 相关 频率 ， 
而 且 不 会 使 ICC 系统 的 送 话 髓 产生 压力 ， 从 而 可 能 会 出 现 非 线性 效应 。 

一 旦 脉冲 响应 被 识别 到 ， 系 统 延 时 、 回 响 时 间 和 频率 响应 等 参数 都 可 以 提取 
到 。 在 图 5.15 中 ， 描 述 了 激活 和 停 用 ICC 系统 时 测量 到 的 频率 响应 。 在 位 于 乘客 
座位 上 的 “人 造 嘴 ” 和 直接 坐 在 “人 造 嘴 ” 背 后 的 倾听 者 右 耳 之 间 ， 测 量 得 到 这 
些 频率 响应 。 

假设 产生 的 背景 噪声 被 ICC 系统 所 抑制 ， 且 没有 被 放大 ， 打 开 和 关闭 ICC 系统 
的 频率 响应 之 间 的 差异 ， 表 明了 ICC 系统 能 够 改善 频率 可 选择 的 SNR。 通 过 比较 
理想 系统 的 频率 响应 ， 可 以 识别 出 真正 的 系统 与 理想 系统 的 接近 度 。 

2. 改善 SNR 

另 一 个 确定 提高 倾听 者 的 收听 质量 的 客观 可 能 性 ， 是 可 以 测量 ICC 系统 在 激活 





















































82 车 载 系统 和 安全 的 数字 信号 处 理 





频率 响应 





频率 /kHz 
图 5.15 倾听 者 右 耳 的 频率 响应 (幅度 ) 


或 停止 的 状态 下 不 同 的 SNR。 这 些 两 个 彼此 相关 的 测量 ， 能 够 给 出 激活 ICC 系统 
SNR 的 改善 。 使 用 这 种 直接 方法 ， 线 性 时 不 变 假设 已 经 不 再 是 必要 的 ， 且 可 以 应 
用 在 更 真实 的 条 件 下 〈 不 仅 在 测 得 的 信和 号 方面 ， 同 时 在 ICC 系统 方面 [没有 使 用 
“冷冻 ”系统 ] ) 。 

要 确定 在 倾听 者 耳 边 的 SNR， 一 个 预定 义 的 语音 信号 可 以 作为 一 个 测试 信号 
来 使 用 。 测 试 信号 包含 了 男性 和 女性 测试 者 的 语音 以 及 语音 停顿 。 通 过 使 用 乘客 座 
椅 位 置 的 “人 造 嘴 ” 所 输出 的 测试 信号 来 激励 整个 系统 。 这 个 信号 再 一 次 被 倾听 
者 耳 打 上 的 双 声 道 送 话 器 录音 ， 而 倾听 者 直接 坐 在 乘客 座 椅 的 后 面 ， 如 图 5. 14 
所 示 。 

使 用 预定 义 的 测试 信号 s(n)， 可 以 检测 到 该 信号 内 语音 和 无 声音 的 段落 。 因 
此 s(n) 的 二 次 方 值 对 时 间 进 行 计算 和 平滑 

Is(n) P =a» |s(n) P+ (1-0) * |s(n-1) |? (5.1) 

平滑 因子 选择 为 ae [0.001，0.01]。 通 过 这 个 平滑 的 离散 信号 ， 用 于 语音 和 
暂停 通道 的 采样 点 集合 可 以 按照 下 式 来 得 到 : 

T sa ={n | s(n) | >So) (5.2) 


sj 




















2 
T S =n | 's(n) | <Not (5.3) 
XP S 25i Fi ey Beye bor AY) BEL ; 
N ERIRE, NAR So > Ny 。 
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假设 通过 双 声 道 送 话 器 所 录制 的 信号 被 定义 为 
y,(n) =h,(n) * s(n) *b(n) =u,(n) *b(n) (5.4) 
式 中 4 (n) 一 一 增加 的 噪声 ，; 
h; (n) “人 工 嘴 ”和 第 i 个 双 声 道 送 话 右 之 间 的 脉冲 响应 

















M 脉冲 响应 和 测试 信号 的 卷 积 。 
结合 这 些 定 义 ， 我 们 可 以 评估 噪声 功率 P, ,和 嗜 杂 的 语音 功率 Py. 
1 
Ps = HT os i P Ix; (n) 上 (5.5) 
H 
" 1 2\_ 
Py; m rm ° E | ) Psi (5.6) 
其 中 # 定 义 了 一 个 给 定 集合 的 基数 ， 因此 根据 听觉 定义 的 对 数 SNR 为 
| 5.7 
pim . o P, | “ DUE ( : ) 


为 了 能 够 选择 频率 来 观察 ，SNR TE 7 个 不 同 的 倍 频 程 带 宽 上 加 以 判定 。 在 图 
5.16 中 描绘 了 响应 的 倍 频 程 滤波 器 ， 这 些 倍 频 程 与 下 一 节 描 述 的 计算 语音 传输 指 
数 所 使 用 的 是 相同 的 。 使 用 双 声 道 送 话 咒 记录 的 测试 信号 ， 在 计算 SNR 之 前 ， 必 
须 经 过 倍 频 滤波 器 过 滤 ， 根 据 式 (5.1) ~ 式 (5.7) 所 说 的 相同 方法 来 进行 计算 。 


表 5.1 给 出 了 倍 频 滤波 器 的 中 心 频率 。 
信 频 滤波 器 的 频率 响应 








102 103 104 
频率 /Hz 


图 5. 16” 倍 频 滤波 器 的 频率 响应 〈 幅 度 ) 
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R51 售 频 程 滤波 器 的 中 心 频率 


信 频 程 1 2 3 4 5 6 7 
中 心 频率 125Hz 250Hz 500Hz 1kHz 2kHz AkHz 8kHz 


为 了 对 比 结果 ， 需 要 在 启动 与 关闭 ICC 系统 的 条 件 下 分 别 判 定 SNR, B 5.17 
显示 的 是 倾听 乘客 右 耳 处 的 结果 。 可 以 观察 到 ，SNR 显著 增加 ， 尤 其 是 在 5 ~7 fi 
频 程 处 。 

在 这 一 点 上 ， 只 确定 了 倾听 者 耳 旁 的 SNR 得 到 改善 。 另 一 个 有 意思 的 问题 是 ， 
由 于 ICC 系统 ， 引 起 车 厢 内 噪声 功率 的 增加 。 此 时 ， 应 尽量 避免 噪声 功率 的 增加 。 
因此 ， 启 动 与 关闭 ICC 系统 时 ， 在 倾听 者 的 耳 条 处 所 测 到 的 噪声 功率 之 差 ， 也 可 以 
用 来 表征 ICC 系统 的 质量 。 
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图 5.17 在 150km/h 的 速度 下 ICC 系统 SNR 的 改善 
3. 语音 传输 指数 
语音 传输 指数 (STI) 的 基本 思想 是 ， 语 音 传输 质量 可 以 通过 调制 指数 的 变化 
描述 出 来 。 为 了 达到 这 个 目的 ， 设 计 了 一 个 特殊 的 信号 测试 ， 并 且 测 量 了 由 于 测试 
号 的 传输 所 导致 的 调制 指数 的 减少 量 。 
在 这 种 特殊 情况 下 ， 仅 仅 用 线性 和 加 成 的 失真 来 限制 传输 信道 ， 即 回响 、 噪 声 
以 及 回声 。 在 图 5. 18 中 ,描述 了 用 于 测量 调制 指数 的 基本 概念 。 
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有 色 品 声 调制 频道 倍 频 程 滤波 器 组 ” 包 络 检 波 ”测定 调制 指数 
图 5.18 测定 调制 指数 的 基本 概念 





载波 信号 e(n) 产生 测试 信号 ， 其 频谱 和 语音 的 长 期 频谱 相似 。 然 后 ， 载 
过 振幅 调制 ， 这 样 就 形成 了 以 下 信号 测试 的 定义 : 
s(n) 2e(n)* Vl +cos (2mF,nT) (5.8) 
接收 的 信号 ， 以 下 记 为 y,(n)， 通 过 施加 一 个 倍 频 程 的 滤波 器 组 ， 可 将 其 分 为 
7 阶 ， 如 图 5. 18 所 示 。 表 5.1 中 已 经 提 到 了 这 些 滤波 器 具有 不 同 的 中 心 频率 。 取 
决 于 倍 频 程 频带 有 的 接收 信号 可 表示 为 
yy Cn) =e (n)- Jl *m,,*cos (27F nT) (5.9) 
式 中 y, (n). 一 一 通过 传送 载波 信号 的 改变 。 
根据 这 种 方法 ， 可 以 找到 每 个 信号 的 包 络 线 、 调 制 指数 m, ,， 在 这 里 ， 只 考虑 
一 个 调制 频率 。 为 了 更 详细 地 研究 线性 失真 的 影响 ， 调 制 频率 的 数目 可 以 扩展 到 
14 个 不 同 的 频率 ,使 用 指数 1 来 表示 。 这 些 频 率 以 1/3 倍 频 程 的 间隔 在 0. 63 ~ 
12. 5Hz 之 间 分 布 !201 。 
为 了 产生 一 个 测试 信号 ， 每 个 频率 随 着 时 间 的 推移 依次 被 激活 。 随 后 ， 调 制 指 
数 mi ,可 以 根据 倍 频 程 和 调制 频率 进行 估计 。 
使 用 这 些 调制 指数 ， 可 以 确定 语音 传输 指数 (STI)。 因 此 ， 与 倍 频 程 带 所 等 
效 的 SNR (单位 dB) 可 通过 下 式 计 算 : 
SNR, , =10 - veo; E. -) (5.10) 
这 个 等 效 的 SNR 限制 在 一 定 的 范围 RR 内 ， 而 且 在 归 一 化 后 在 0 ~1 之 间 按 比例 
变化 。 所 得 到 的 传输 指数 (TI) 定义 为 


T, = min} ; maxfo ， 
式 中 5 一 一 归 一 化 的 变化 。 


S 和 RR 的 值 通常 选择 为 R=30dB,，S = -1sdB?" ， 接 着 调制 传输 指数 (MTI) 
可 以 通过 下 式 计算 . 





通过 
号 通 


波 信 


























(5.11) 





SNR, , 55] 
R 








N 


MTI , = + 2 TL (5.12) 
式 中 NN 一 一 使 用 的 调制 频率 的 数目 。 
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最 后 ， 通 过 传输 指数 的 加 权 总 和 可 以 推导 出 STI; 








STI = > W,MTI, (5. 13) 
AP wA A VA AIF o 
根据 每 一 个 倍 频 程 的 心理 声学 重要 性 选择 加 权 系 数 。 倍 频 程 对 听觉 感受 是 必 不 
可 少 的 ， 其 权重 会 比 其 他 因素 所 赋 的 值 更 大 。 在 这 种 情况 下 ， 根 据 参 考 文献 【30 ] 
中 参考 表 5. 2 来 选择 权重 。 
表 5.2， 倍 频 程 的 加 权 因 子 (参考 文献 [30] ) 














信 频 程 带 1 2 3 4 5 6 7 
W, 0. 129 0. 143 0. 114 0. 114 0. 186 0. 171 0. 143 
中 心 频 率 /Hz 125 250 500 1000 2000 4000 8000 























使 用 此 种 方法 ， 在 不 同 的 场景 测定 单个 的 STI 值 。 为 了 测量 必需 的 信号 ， 使 用 
如 图 5. 14 所 采用 的 相同 配置 。 此 外 ， 在 该 测试 信和 号 中 插入 中 断 ， 将 测试 信号 检测 
为 噪声 ,来 防止 ICC 系统 的 特性 改变 太 大 ， 例 如 增益 。 在 暂停 期 间 ，ICC 系统 可 以 
调整 回 初 始 设 置 。 测 试 信号 通过 “人 工 嘴 ”扬声器 进行 传输 ， 然 后 再 次 被 双 声 道 
送 话 器 录音 。 这 可 以 通过 在 不 同 的 速度 以 及 是 否 开 启 ICC 系统 下 进行 ， 以 比较 所 得 
到 的 结果 。 

图 5. 19 所 示 是 倾听 者 右 耳 处 的 结果 。 测 量 结果 表明 ， 由 于 ICC 系统 的 开启 ， 
使 用 ICC 系统 后 ，STI 值 增加 了 约 0.15。 此 外 ， 汽 车 在 加 速 到 更 高 的 车 速 行驶 时 ， 
关闭 ICC 系统 ，STI 会 降低 。 如 果 开 启 ICC AB, HAW 90km/h 和 120km/h 的 速 
度 行驶 时 ，STI 值 几 乎 相同 。 在 这 种 情况 下 ， 通 过 提高 放大 倍数 ，ICC 系统 可 以 补 
偿 所 降低 的 SNR。120 ~ 150km/h 之 间 STI 的 减少 ， 可 以 通过 ICC 系统 的 最 大 放大 
倍数 调整 ， 而 最 大 放大 倍数 可 以 在 这 两 个 速度 之 间 得 到 。 因 此 ，ICC 系统 没有 提供 
更 大 的 放大 倍数 ， 而 且 由 于 背景 噪声 水 平 的 增加 ，STI 值 减 小 。 从 参考 文献 【27 ] 
中 可 以 看 到 ， 在 推导 STI 时 ， 采 用 类 似 ICC 系统 的 评估 结果 。 


5.5.2 倾听 者 接听 质量 的 降低 


倾听 者 接听 质量 的 下 降 主要 有 两 个 原因 : 第 一 个 原因 是 由 于 ICC 系统 增加 了 回 
响 ; 第 二 个 是 声学 上 的 定位 与 语音 信号 的 视觉 来 源 不 匹配 。 如 5.2 节 所 提 到 的 ， 回 
响 的 大 小 取决 于 ICC 系统 的 增益 和 延 时 ， 而 且说 话 者 的 定位 也 受到 这 两 个 因素 
的 影响 。 

5.5.2.1 回响 时 间 

回响 程度 可 以 通过 回响 时 间 76, 来 表示 ， 它 可 以 从 相应 的 脉冲 响应 ,的 能 量 衰 
减 曲线 (EDC) 求 得 中 。 归 一 化 的 EDC 定义 如 下 : 
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图 5. 19 倾听 者 右 耳 处 语音 传输 系数 的 测量 
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h, 
D(i) = 10log,, net 
Y 

EDC 的 梯度 给 出 了 回响 时 间 ， 回 响 时 间 定 义 为 EDC 衰减 60dB 所 需 的 时 间 
(或 者 等 效 的 脉冲 响应 ) 。 

作为 一 个 例子 ， 图 5. 20 显示 了 开启 和 关闭 ICC 系统 下 的 EDC。 可 以 看 出 , 与 
关闭 ICC 系统 的 情况 下 相 比 ， 开 启 ICC 系统 时 增加 了 回响 的 时 间 。 

关闭 和 开启 ICC 系统 的 回响 时 间 的 比较 ,说 明了 由 ICC 系统 引起 的 回响 时 间 增 
长 。 回 响 时 间 增 加 得 越 短 ， 系 统 的 质量 越 好 。 开 局 ICC 系统 的 回响 时 间 不 应 该 超过 
一 定 的 国 值 ， 这 一 点 也 取决 于 汽车 的 类 型 。 例 如 ， 一 辆 只 有 两 排 座 椅 的 汽车 ， 回 响 
时 间 不 应 该 超过 80 ~ 150ms (取决 于 汽车 的 类 型 ) 。 

5.5.2.2 定位 

声 源 的 定位 不 匹配 是 另 一 个 因素 ， 这 可 能 会 降低 倾听 者 的 对 话 质 量 。 正 如 2.2 
节 提 到 的 ， 声 源 的 错误 定位 与 该 系统 的 增益 、 延 时 以 及 扬声器 的 位 置 有 关 。 因 此 ， 
在 任何 情况 下 ，ICC 系统 都 应 该 使 用 能 够 支持 声 源 正 确定 位 的 扬声器 (例如 ， 扬 声 
器 位 于 前 排 座 椅 的 右 侧 ) 。 

到 现在 为 止 ， 只 能 通过 主观 的 方法 评估 定位 质量 。 为 了 进行 评估 ， 应 选择 一 组 
受过 声学 分 析 方 面 教育 的 测试 对 象 ， 来 体验 ICC 系统 ， 并 且 对 定位 印象 进行 分 级 。 


(5.14) 



































88 车 载 系统 和 安全 的 数字 信号 处 理 





能 量 衰减 曲线 





50 60 70 80 


0 10 20 30 


40 
时 间 /ms 


图 5.20 在 倾听 者 右 耳 处 脉冲 响应 的 能 量 衰减 曲线 





5.5.3 说 话 者 语音 质量 的 降低 


由 于 语音 信号 重播 ， 车 厢 内 的 回响 增加 。 这 不 仅 扰乱 了 倾听 者 ， 也 扰乱 了 说 话 
者 。 因 此 ， 也 可 以 用 回响 时 间 的 测定 来 定义 说 话 者 语音 质量 的 降低 程度 。 

如 采 延 时 时 间 太 长 ， 各 自 获得 的 声波 阵 面 (说 话 者 和 ICC 系统 播放 的 语音 )， 
将 会 损害 说 话 者 的 对 话 。 因 此 ， 延 时 时 间 也 是 一 个 有 意义 的 质量 量度 。 

然而 ， 如 果 延 时 时 间 足 够 小 ， 但 是 增益 太 大 ， 那 么 说 话 者 会 认为 自己 说 的 话 是 
回声 。 为 了 评估 这 种 现象 ， 我 们 测量 了 说 话 者 嘴 和 耳 朱 之 间 的 脉冲 响应 。 通 过 这 些 
脉冲 响应 ， 可 以 计算 和 评估 相应 的 频率 响应 。 开 启 与 关闭 ICC 系统 的 频率 响应 之 间 
的 差异 ， 能 够 为 语音 信号 提供 一 种 根据 频率 来 选择 放大 倍数 的 方法 。 如 果 放 大 量 太 
大 ， 说话 者 很 有 可 能 会 听 到 自己 说 的 话 。 此 外 ， 检 查 脉冲 响应 可 以 检测 到 因 反 馈 而 
产生 的 回声 。 因 此 ， 可 以 定义 一 个 屏蔽 的 包 络 ， 并 与 脉冲 响应 进行 比较 。 如 果 脉 冲 
响应 比较 突出 ， 那 么 这 种 屏蔽 包 络 的 回声 应 该 能 够 听 到 ”| 。 





















































5.6 对 ICC 系统 自动 评估 的 几 点 想法 


即使 我 们 已 经 解释 了 一 系列 不 同 的 客观 方法 ,而 且 这 些 方法 对 于 自动 评估 ICC 
系统 是 必要 的 ,但 是 全 面 定 义 这 样 的 评估 过 程 仍然 很 困难 。 在 本 节 中 ， 我 们 会 进 一 
步 考 虑 一 些 手段 和 想法 。 
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正如 前 面 章节 中 所 说 的 ， 当 评估 ICC 系统 时 ， 必 须要 解决 两 个 主要 问题 ， 

1) ICC 系统 是 否 能 够 提高 倾听 者 语音 质量 ? 

2) 对 于 说 话 者 而 言 ，ICC 系统 是 否 会 降低 其 对 话 质量 ? 

要 回答 这 些 问 题 ， 需 要 对 ICC 系统 的 整体 质量 加 以 描述 。 

回答 第 一 个 问题 可 以 分 为 两 个 部 分 : 第 一 个 考虑 是 表征 倾听 者 对 话 质量 改善 的 
方法 。 第 二 个 是 解决 那些 损害 倾听 者 对 话 质量 的 因素 。 例 如 ， 通 过 确定 倾听 者 耳 边 
的 SNR 改善 状况 ， 来 表征 语音 可 理解 性 的 改进 情况 。 

测量 SNR 改善 状况 的 一 个 优点 是 ， 这 需要 考虑 到 车 厢 内 噪声 水 平 的 增加 ， 而 
且 STI 有 助 于 解决 这 个 问题 。 这 种 方法 有 一 个 更 好 的 优点 : 它 解 释 了 线性 失真 的 原 
因 ， 如 回响 。 其 他 客观 的 方法 ， 如 传递 函数 的 分 析 或 者 一 些 更 新 的 方法 和 指标 是 可 
以 想象 到 的 。 可 以 通过 确定 回响 时 间 ， 来 定义 语音 质量 降低 的 程度 。 如 果 这 个 时 间 
超过 一 定 的 值 ， 我 们 就 可 以 得 出 结论 : 倾听 者 能 够 感受 到 被 破坏 的 对 话 。 进 一 步 的 
KEE ICC 系统 所 产生 的 延 时 ， 以 及 语音 信号 再 次 播放 的 响 度 。 通 过 结合 这 两 个 指 
标 ， 我 们 可 以 分 析 声 源 和 视觉 源 之 间 的 定位 不 匹配 。 然 而 ， 并 非 能 够 以 客观 的 方 
式 ， 测 量 到 所 有 使 倾听 者 产生 主观 听觉 印象 的 因素 。 因 此 ， 针 对 这 种 情况 ， 为 了 设 
计 一 个 自动 评估 方法 ， 必 须 找 到 一 些 新 的 客观 的 方法 。 
解决 第 二 个 问题 的 方案 ， 是 在 开启 和 关闭 ICC 系统 的 情况 下 ， 分 析 说 话 者 从 嘴 
到 耳 条 之 间 的 传递 函数 或 脉冲 响应 。 传 弟 函 数 的 增加 ， 给 出 了 说 话 者 听 到 自己 语音 
信号 的 反馈 量 的 一 个 指标 。 分 析 脉 冲 响应 ， 可 以 发 现 所 出 现 的 回声 。 然 而 在 这 种 情 
况 下 ， 必 须 找到 新 的 客观 方法 ， 以 再 现 主观 听觉 感受 ,例如 自然 的 语音 。 

为 了 综合 评价 ICC 系统 ， 我 们 建议 ， 针 对 每 一 个 问题 ， 都 要 建立 某 种 形式 的 至 
少 一 种 客观 方法 的 加 权 方 法 。 这 样 ， 这 种 方法 能 够 映射 和 评估 与 语音 对 话 质量 有 关 
的 所 有 重要 因素 。 利 用 现在 为 止 都 很 难 测量 的 因素 (如 语音 的 自然 性 ) 来 解决 这 
个 问题 。 可 以 想象 到 主观 评价 和 客观 评价 的 相关 性 ， 因 此 ， 在 相同 的 情况 下 使 用 主 
观 和 客观 的 方法 ， 并 将 两 者 加 以 关联 。 此 外 ， 就 反映 实际 对 话 质量 的 能 力 而 言 ， 通 
过 这 种 相关 性 ， 我 们 可 以 评估 客观 方法 的 可 靠 性 。 当 然 ， 所 有 的 这 些 手段 仅仅 是 作 
者 们 的 建议 。 不 管 怎样 ， 都 需要 进一步 研究 自动 评估 的 这 个 问题 。 





























5.7 小结 


在 本 章 中 ， 对 ICC 系统 以 及 它们 的 评估 方法 进行 了 概述 。 在 设计 ICC 系统 时 ， 
一 些 边界 条 件 需 要 加 以 考虑 ， 男 外 ， 还 讨论 了 使 用 系统 所 引起 的 增益 和 延 时 是 影响 
该 系统 最 大 的 两 个 因素 。 

听力 测试 结果 表明 ， 如 果 汽 车 在 中 速 或 高 速 下 行驶 时 ，ICC 系统 能 够 改善 车 内 
语音 对 话 质量 。 


同时 ， 提 出 了 一 些 客观 的 方法 ， 用 于 表征 倾听 者 听 到 的 对 话 质量 的 改善 或 下 
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降 ， 同 样 也 可 以 对 说 话 者 进行 相似 的 评估 。 
由 于 进行 主观 测试 相当 耗费 时 间 ， 我 们 的 目的 是 依据 客观 的 标准 ， 来 开发 一 个 
自动 的 系统 评估 。 这 些 测量 方法 中 ,例如 SNR 和 STI， 也 证 明了 以 上 两 种 方法 能 够 
再 现 一 些 主观 测试 的 结果 。 然 而 ， 在 某 些 情况 下 ， 很 难 找到 某 些 合适 的 指标 ， 如 判 
断定 位 的 效果 。 通 过 指出 系统 需要 解决 哪些 问题 ， 我 们 提出 了 设计 自动 评估 方案 的 
方法 。 尽 管 已 经 找到 了 一 些 有 意义 的 客观 方法 ,但 为 了 得 到 与 人 类 听觉 感知 相关 的 
更 多 指标 ， 我 们 需要 在 这 一 特定 领域 做 进一步 的 深入 研究 。 
由 于 ICC 系统 已 经 开始 进入 市 场 ， 所 以 已 经 产生 了 对 质量 评估 程序 标准 化 的 需 


求 。 评 估 系 统 不 仅 有 助 于 比较 不 同 的 ICC 系统 ， 还 能 够 在 设计 和 参数 化 进程 中 提供 








一 定 的 协助 。 
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15. 


参考 文献 


. Cifani S, Montesi LC, Rotili R, Principi E, Squartini S, Piazza F (2009) A PEM based 


algorithm for acoustic feedback control in automotive speech reinforcement systems. 
In: Proceedings of ISPA 2009, Chengdu, China, pp 656-661 


. Freudenberger J, Pittermann J (2008) Noise and feedback suppression for in-car communica- 


tion systems. ITG Fachtagung Sprachkommunikation, Aachen 


. Haulick T, Schmidt G (2006) Signal processing for in-car communication systems. Signal 


Process 86(6):1307-1326 


. Ortega A, Lleida E, Masgrau E (2001) Acoustic echo control and noise reduction for cabin car 


communication. Proc EUROSPEECH 2001 3:1585-1588 


. Ortega Gimenez A, Lleida Solano E, Masgrau Gómez EJ, Buera Rodríguez L, Miguel Artiaga 


A (2006) Acoustic echo reduction in a two-channel speech reinforcement system for vehicles. 
In: Abut H, Hansen JHL, Takeda K (eds) Digital signal processing for in-vehicle and mobile 
systems 2. Springer, New York 


. Schmidt G, Haulick T (2006) Signal processing for in-car communication systems. In: Hànsler 


E, Schmidt G (eds) Topics in acoustic echo and noise control. Springer, Berlin, pp 553-605 


. Haulick T, Schmidt G, Wolf A (2009) Evaluation of in-car communication systems. 


In: Proceedings of DSP workshop for in-vehicle systems and safety, Dallas, USA 


. Kuttruff H (2000) Room acoustics, 4th edn. Spon Press, London 
. Lombard E (1911) Le signe de l'elevation de la voix. Ann Maladies Oreille, Larynx, Nez 


Pharynx 37:101-119, In French 


. Hanson JHL (1994) Morphological constrained feature enhancement With adaptive cepstral 


compensation (MCE-ACC) for speech recognition in noise and lombard effect. IEEE Trans 
Speech Audio Process T-SA-2(4):598-614 


. Haas H (1972) The influence of a single echo on the audibility of speech. J Audio Eng 


Soc 20:145-159 


. Kurbiel T, Gockler HG, Alfsmann D (2009) A novel approach to the design of oversampling 


low-delay complex-modulated filter bank pairs EURASIP J Adv Signal Process, Article ID 
692861, vol 2009 


. Mauler D, Martin R (2007) A low delay, variable resolution, perfect reconstruction spectral 


analysis-synthesis system for speech enhancement. In: Proceedings of EUSIPCO 2007, 
Poznan, Poland, pp 222-227 

Zolzer U (ed) (2002) DAFX - digital audio effects. Wiley, Hoboken 

Benesty J, Morgan DR, Sondhi MM (1996) A better understanding and an improved solution 
to the specific problems of stereophonic acoustic echo cancellation. Bell Labs Technical 
Memorandum. 





j 


第 5 章 车 载 通信 系统 的 评价 


91 





16. 


17. 


18. 


19. 


20. 


21. 


22. 
23. 


24 


25. 


26. 


21. 


28. 


29. 


30. 


31. 


32. 


Hansler E, Schmidt G (2004) Acoustic echo and noise control: a practical approach. Wiley, 
Hoboken 

Vary P, Martin R (2006) Digital speech transmission. Enhancement, coding and error con- 
cealment. Wiley, Hoboken 

Habets EAP, Gannot S, Cohen I (2008) Dereverberation and residual echo suppression in noisy 
environments. In: Hansler E, Schmidt G (eds) Speech and audio processing in adverse 
environments. Springer, Berlin 

Naylor PA, Gaubitch ND (eds) (2010) Speech dereverberation. Springer, Berlin 

Benesty J, Chen J, Huang Y, Cohen I (2009) Noise reduction in speech processing. Springer, 
Berlin 

Heute U (2006) Noise reduction. In: Hànsler E, Schmidt G (eds) Topics in acoustic echo and 
noise control. Springer, Berlin 

Elko G (2007) Reducing noise in audio systems. US Patent 7,171,008 B2 

Hetherington P, Li X, Zakarauskas P (2003) Wind noise suppression system. US Patent 
7,885,420 B2 


. Doblinger G (2006) Localization and tracking of acoustical sources. In: Hànsler E, Schmidt G 


(eds) Topics in acoustic echo and noise control. Springer, Berlin 

Heute U (2008) Telephone-speech quality. In: Hànsler E, Schmidt G (eds) Speech and audio 
processing in adverse environments. Springer, Berlin 

Kettler F, Gierlich HW (2008) Evaluation of hands-free terminals. In: Hansler E, Schmidt G 
(eds) Speech and audio processing in adverse environments. Springer, Berlin 

Ortega A, Lleida E, Masgrau E (2005) Speech reinforcement system for car cabin 
communications. IEEE Trans Speech Audio Process 13(5):917—929 

Voiers W (1983) Evaluating processed speech using the diagnostic rhyme test. Speech Technol 
30-39, vol. 1 Jan/Feb 

ITU-T Recommendation P.800 (1996) Methods for subjective determination of transmission 
quality. International Telecommunications Union, Geneva 

Steeneken HJM, Houtgast T (1980) A physical method for measuring speech-transmission 
quality. J Acoust Soc Am 67(1):318-326 

Steeneken HJM, Houtgast T (1985) A review of the MTF concept in room acoustics and its 
use for estimating speech intelligibility in auditoria. J Acoust Soc Am 77:1069-1077 
Haulick T, Iser B, Schmidt G, Wolf A (2008) Hands-free telephony and in-vehicle communi- 
cation. European Patent Application, EP 2 151 983 Al 


$6 EAA xg Ape 
系统 设计 和 测试 的 新 挑战 


Hans W. Gierlich 和 Frank Kettler 


摘要 : 车 内 宽频 带 免 提 技术 实质 性 地 提高 了 驾驶 员 和 远 端 通信 伙伴 的 语音 识别 
质量 。 然 而 ， 为 了 实现 较 好 的 宽频 带 语音 质量 ,不 同 于 窄带 电话 技术 ,我 们 必须 考 
虑 各 种 各 样 必要 的 条 件 。 为 了 使 汽车 宽频 带 能 够 成 功 应 用 ， 讨 论 了 一 些 重 要 的 决定 
性 因素 。 由 于 宽频 带 传输 至 少 部 分 地 基于 IP 地址， 因此 与 窄带 电话 相 比 可 以 预料 
到 更 高 的 延 时 。 NK Lis Eoi MR 同时 也 给 出 了 导致 车 
载 免 提 系 统 产 生 延 时 的 不 同 要 素 。 另 外 ， 讨 论 了 延 时 对 通话 质量 的 影响 。 宽 频带 通 
tc uu T 质量 。 本 章 也 介绍 了 一 种 新 的 针对 
带 有 背景 骂 声 的 语音 oet iude ott op 针对 
宽频 带 中 的 回声 特点 ， 给 出 了 一 些 新 的 主观 测试 结果 ， 以 及 基于 听觉 模式 “相对 
途径 ”的 一 种 客观 的 回声 分 析 方 法 的 结果 。 

关键 词 : 人 类 感知 ; 系统 设计 ; 宽频 带 免 提 技术 





宽频 带 免 提 技术 在 汽车 中 的 应 用 ， 使 芝 驶 员 和 远 端 通信 伙伴 的 语音 识别 能 力 有 
了 实质 性 的 提高 。 与 传统 的 通信 终端 相 比 ， 车 载 免 提 终端 将 更 多 地 受益 于 宽频 带 。 
在 声音 质量 上 的 差异 将 很 快 引起 驾 s 怠 员 的 注意 ， 这 是 因为 她 /他 总 是 对 其 他 介质 和 
高 质量 的 音响 装置 有 一 个 感性 的 比较 。 车 里 的 语音 可 理解 性 将 显著 增加 ， 这 是 非常 
有 利 的， 尤其 是 在 驾驶 汽车 存在 背景 噪声 的 情况 下 。 这 样 ， 驾 驶 员 收 听 上 的 工作 将 
减少 ， 对 首要 任务 (驾驶 ) 的 分 心 程度 也 得 到 降低 。 因 此 ， 如 果 恰 当地 应 用 宽频 
带 技术 ， 将 可 大 幅 减 少 驾 驶 员 的 分 心 。 然 而 ， 为 了 获得 更 加 优异 的 宽频 带 语音 
量 ， 与 窄带 电话 不 同 的 各 种 要 求 必 须 加 以 考虑 。 这 包括 了 在 传输 中 涉及 的 所 有 组 伯 
的 精细 系统 设计 。 延 迟 的 影响 和 导致 延 时 产生 的 组 成 部 分 将 在 6. 2 节 中 被 论述 。 在 
oT. 仑 述 对 宽频 带 车 载 免 提 系统 的 收听 语音 质量 所 进行 的 分 析 ，6.4 节 中 将 

给 出 在 回声 性 能 方面 的 特殊 要 求 。 
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6.2 传输 延迟 


由 于 宽频 带 传输 大 多 数 是 基于 IP 的 ， 当 连接 到 辕 定 线路 的 网 络 时 ， 与 窄带 电 
话 相 比 预 期 有 较 高 的 延 时 。 较 高 的 延 时 不 仅 导 臻 通信 质量 的 降低 ， 另 外 还 需要 对 宽 
频带 系统 所 要 求 的 回 波 损耗 进行 更 深入 地 研究 。 这 涉及 谱 以 及 时 间 特 征 ，6. 4 节 对 
此 进行 了 讨论 。 
在 图 6. 1 中 给 出 了 一 个 典型 免 提 系统 组 成 的 概述 及 其 对 延 时 的 影响 。 
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图 6.1 车 载 免 提 系统 的 典型 组 件 及 其 对 传输 延 时 的 作用 


送 话 右 本 身 以 及 它 连接 到 车 内 音响 或 车 内 总 线 系统 时 ， 通 常会 引入 较 低 的 延 
时 ,在 上 行 链 路 (发 送 方 向 ) 中 的 免 提 算法 可 能 会 引入 一 个 明显 的 传输 延 时 。 在 
上 行 链 路 中 ， 最 重要 的 信号 处 理 都 在 起 作用 : 回声 消除 和 噪声 消除 。 两 者 需要 大 量 
的 信号 处 理 能 力 ， 在 宽频 带 系统 中 ， 很 可 能 这 些 算法 在 频 域 和 /或 在 子 频 带 实 现 。 
与 比较 简单 的 LMS 型 算法 相 比 ， 这 些 技术 不 仅 提供 了 良好 的 性 能 "… ， 而 且 还 引入 
了 较 高 的 延 时 。 

与 已 知 的 罕 带 系统 相 比 ， 在 下 行 链 路 中 的 信号 处 理 也 可 能 引入 更 多 的 延 时 。 这 
是 由 于 所 采用 的 先进 的 自 适 应 信号 增强 技术 ， 如 自 适 应 均衡 或 压缩 ， 特 别 是 宽频 带 
扩展 技术 。 这 些 技术 可 以 用 来 从 窦 带 语 音 生 成 伪 宽 频带 信号 ， 有 助 于 尽量 减少 宽频 
带 和 窄带 电话 (参见 参考 文献 [2, 3]) 之 间 所 感知 的 语音 质量 的 差别 。 男 外 的 延 
时 来 源 可 能 是 音频 处 理 器 ， 它 主要 用 来 提高 在 汽车 内 其 他 音频 源 的 音频 表现 。 

蓝牙 连接 是 如 今 免 提 系 统 和 移动 电话 之 间 最 典型 的 链接 。 目 前 ， 蓝 牙 宽 频带 规 
格 还 没有 得 到 应 用 。 为 了 实现 优异 的 语音 质量 同时 保证 低 的 延 时 ， 此 时 需要 无 串联 
的 编码 技术 。 这 将 需要 在 蓝牙 链接 时 支持 AMR 宽频 带 传 输 ， 并 在 免 提 系统 中 实现 
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对 语音 编码 和 解码 的 支持 。 人 然而， 为 了 蓝牙 链接 所 提供 的 一 个 额外 的 编 解 码 器 正在 
讨论 中 。 这 将 对 语音 信号 引入 额外 的 失真 ， 并 在 一 个 连接 中 显著 增加 整体 的 延 时 。 
对 于 一 个 出 色 的 宽频 带 服务 来 说 ， 这 样 的 实现 方案 是 不 可 取 的 。 

将 图 6. 1 所 示 的 延 时 求 和 ， 可 以 得 到 ， 最 好 的 情况 下 ， 从 轿车 到 轿车 的 传输 延 
时 将 是 200ms 左右 。 假 设 平均 的 蓝牙 延 时 为 约 30ms， 一 个 固定 的 网 络 延 时 为 
50ms， 这 样 的 连接 中 总 的 传输 延 时 很 可 能 超过 400ms。 

传输 系统 中 延 时 的 影响 是 众所周知 的 ， 在 ITU-T Recommendation G. 131' 和 
G. 1075 中 都 有 描述 。 在 参考 文献 所 中 ， 论 述 延 时 对 所 需 的 回 波 损耗 的 影响 ，ITU- 
T Recommendation G. 107 ^! 给 出 了 延 时 值 对 一 个 用 户 满意 度 影响 的 观点 。 虽 然 这 些 
研究 仍然 基于 窄带 传输 ， 但 是 在 宽频 带 系统 中 类 似 的 影响 也 是 存在 的 。 除 了 回声 损 
耗 外 ， 假 设 链接 中 所 有 组 件 的 性 能 是 理想 的 ， 图 6. 2 显示 了 延 时 对 用 户 满 意 度 的 影 
Wo. 

可 以 看 出 ， 即 使 有 完美 的 回声 损耗 ， 当 传输 延 时 达到 400ms 或 更 多 时 ,许多 
用 户 将 是 不 满意 的 。 对 于 卓越 的 服务 这 显然 是 不 可 取 的 。 但 是 ， 即 使 具有 较 低 的 传 
输 延 时 ， 优 异 的 回 波 损 耗 也 是 需要 的 ， 以 获得 良好 的 用 户 满意 度 。 

因而 ， 在 设计 一 个 车 载 免 提 系统 中 的 任何 组 件 时 ， 应 确保 其 引起 的 延 时 最 小 。 
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到 6.2 ”基于 延 时 和 TELR (TELR =SLR +RLR + 回 波 损耗 ) 的 用 户 满意 度 呈 














6.3 倾听 的 语音 质量 


由 于 内 置 在 汽车 中 的 音响 系统 的 品质 很 高 ， 对 收 到 的 语音 质量 的 性 能 要 求 可 能 
是 最 容易 达到 的 。 对 于 二 级 市 场 上 的 免 提 系统 ， 这 是 更 具 挑 成 性 的 。 在 发 送 方向 的 
频率 范围 内 的 扩展 不 仅 提供 了 更 好 的 表示 所 发 送 的 语音 的 低频 分 量 ， 但 也 增加 了 由 
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送 话 器 发 送 的 噪声 量 。 这 是 特别 重要 的 ， 因 为 在 低频 率 范 围 内 汽车 噪声 是 占 主 导 地 
位 的 。 它 给 所 有 的 语音 增强 技术 ， 如 波束 形成 的 送 话 器 、 噪 声 取消 和 其 他 的 技术 ， 
带 来 了 额外 的 质量 要 求 。 

根据 ETSI EG 201 396-3:9 ， 一 个 客观 的 方法 3QUEST 是 能 够 确定 语音 、 品 声 
和 整体 质量 的 ， 并 且 能 被 应 用 在 宽频 带 免 提 系 统 的 优化 上 。 该 算法 计算 出 处 理 信号 
和 两 个 参考 信号 之 间 的 相关 性 一 一 处 理 信号 通常 记录 在 免 提 系统 的 发 送 方向 (上 
行 链 路 ) 上 ， 两 个 参考 信号 是 指 原始 的 干净 语音 信号 和 接近 免 提 送 话 器 所 记录 
的 信号 。 该 信号 由 近 端 语音 和 在 车 内 重 释 的 噪声 组 成 。 该 算法 在 参考 文献 [6] 
和 [7] 中 有 详细 描述 。 统 计 分 析 能 够 得 到 一 维 的 语音 质量 得 分 (S-MOS) 、 品 
声 质 量 得 分 (N-MOS) 和 全 面 质量 得 分 (G-MOS) 的 总 体 印象 。 该 算法 在 罕 带 
和 宽频 带 能 均 可 使 用 ， 并 且 对 主观 测试 的 结果 所 得 到 的 相关 性 都 在 大 于 0.91 的 
范围 中 。 

通过 一 定量 给 定 的 随机 数据 (179 个 条 件 ) 来 开发 和 训练 该 模型 。 数 据 库 的 其 
余部 分 只 用 于 自我 验证 。 在 STF 294 项 目 算法 开发 过 程 中 ' 中 ， 直 到 最 后 算法 的 开发 
完成 为 止 ，81 个 条 件 的 主观 的 S- MOS, N- MOS 和 G- MOS 结果 仍然 是 未 知 的 。 

179 个 不 同 的 试验 条 件 包 括 现 有 的 免 提 终端 以 及 与 不 同 的 背景 噪声 的 情形 ， 如 汽 
车 噪声 和 室外 道路 噪声 ， 相 结合 的 免 提 模拟 。 下 面 介 绍 的 图 表 将 显示 这 些 数据 的 一 小 
部 分 ， 在 免 提 的 条 件 下 进行 窄带 和 宽频 带 的 测试 中 所 得 到 的 主观 和 客观 结果 的 比较 。 

在 宗 带 情况 下 ，(S-MOS、N- MOS 和 G- MOS) 主观 和 客观 的 结果 相差 不 超过 
0.5 MOS ( 见 图 6.3 ~ 图 6.5)。 这 可 以 视 为 是 非常 可 靠 的 ， 尤 其 是 考虑 到 该 倾听 情 
况 的 复杂 性 和 通常 涉及 大 量 的 信号 处 理 。 同 样 可 以 对 宽频 带 的 情况 进行 分 析 ， 如 图 
6.6 ~ 图 6.8 所 示 。 




















免 提 NB 结果 
免 提 NB 结果 7 








3 4 3 
声音 S-MOS 声音 N-MOS 











图 6.3 S-MOS "Ed HFT 16.4 N-MOS 7E HFT 
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Site NB 结果 





声音 G-MOS 声音 N-MOS 
图 6.5 G-MOS 487? HFT 图 6.6 S-MOS 宽频 带 HFT 


免 提 WB 结果 免 提 WB 结果 











声音 N-MOS 声音 G-MOS 
图 6.7 N-MOS 宽频 带 HFT Kl6.8 G-MOS 宽频 带 HFT 











针对 179 个 宽频 带 测试 条 件 的 实例 ， 表 6. 1 显示 了 主观 和 客观 MOS 数据 之 间 
的 相关 系数 和 方 均 根 误差 (RMSE), 

这 种 分 析 方 法 为 上 行 链 路 传输 质量 提供 了 全 面 的 质量 分 数 。 它 需要 结合 诸如 音 
量 等 级 、 频 率 响 应 和 信和 噪声 比 等 更 加 详细 的 参数 ， 以 便 为 所 给 定 的 应 用 提供 “ 整 
体 的 展示 ”。 此 外 ， 一 方面 ， 结 合 综合 的 质量 分 数 ， 另 一 方面 ， 进 行 更 加 详细 的 参 
数 分 析 ， 可 以 为 可 能 需要 的 质量 改进 和 调整 提供 重要 的 建议 。 
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针对 宽频 带 数据 库 预 测 的 相关 度 和 RMSE 见 表 6.1, 
表 6.1 ”针对 宽频 带 数据 库 预 测 的 相关 度 和 RMSE 








训练 验证 
相关 度 RMSE 相关 度 RMSE 
S- MOS 91. 296 0. 37 93. 0% 0. 33 
N- MOS 94. 3% 0. 27 92. 4% 0. 32 
G- MOS 94. 6% 0.25 93. 5% 0. 28 


6.4 回声 性 能 


宽频 带 通信 的 会 话 方面 是 很 重要 的 ， 对 成 功 进行 宽频 带 服务 也 是 如 此 。 因 此 ， 
针对 罕 带 和 宽频 带电 话 之 间 不 同 的 感知 能 力 ， 应 再 次 考虑 会 话 参 数 的 要 求 ， 如 双向 
通话 功能 和 回声 性 能 。 

之 前 看 到 ， 延 迟 对 回声 感知 起 着 至 关 重 要 的 作用 。 此 外 ， 在 宽频 带 情况 下 的 扩 
展 传输 范围 和 回声 的 频谱 内 容 对 回声 的 感知 有 着 非常 大 的 影响 。 宽 频带 回声 感知 也 
需要 新 的 分 析 技 术 和 要 求 。 

现今 的 回声 分 析 结 合 不 同 的 单一 测量 ， 如 回声 衰减 或 回 波 计 普 损 耗 的 测量 ， 来 验 
证 是 否 符合 要 求 和 公差 。 无 论 是 以 知觉 感知 为 导向 还 是 听觉 方面 来 看 ， 这 些 参数 都 
是 不 完整 的 。 它 们 没有 适当 地 考虑 宽频 带 所 特有 的 方面 。 针 对 宽频 带 回声 感知 所 进 
行 的 新 研究 进 一 0 Tout 
常 关 键 的 。 因 此 ， 新 的 偏差 将 引入 到 谱 回声 衰减 中 。 

ee i NM 来 提供 和 主观 测 
试 的 MOS 结果 有 高 相关 度 的 一 维 值 。 这 种 对 回声 评估 能 够 提供 良好 相关 度 的 模型 ， 
已 经 在 窄带 电话 、 扭 曲 的 侧 音 和 房间 回音 方面 进行 了 评估 吕 ] 。 一 个 基于 相对 方法 
的 新 模型 号 可 同时 适用 于 窄带 和 宽频 带电 话 ， 并 提供 可 能 改善 被 测 设备 的 建议 ， 
如 音响 或 网 络 回声 消除 。 相 对 方法 对 意外 的 时 间 和 频谱 分 量 特别 敏感 ， 可 以 被 用 作 
一 个 听觉 充分 度 的 分 析 ， 来 评估 时 间 回 声 干扰 UT, 

总 共有 20 个 人 参加 了 “第 三 方 听 力 测 试 "， 其 中 有 14 个 业余 人 员 和 6 个 专家 。 

语音 材料 由 男性 和 女性 的 声音 组 成 。 

与 所 有 其 他 客观 的 分 析 类 似 ， 一 个 新 的 回 波 模型 的 基础 必须 是 测试 人 员 的 主观 
印象 。 因 此 ， 主 观 回 声 评估 测试 首先 在 宽频 带 条 件 下 进行 。 原则 上 ， 这 些 测试 可 以 
根据 ITU-T P. 8310 进行 所 谓 的 “说 话 和 听力 测试 ”或 基于 人 工头 部 录音 进行 
“第 三 方 听力 测试 ” (ITU-T P.831， 测 试 A 079), 。 记 录 过 程 的 原理 如 图 6.9 所 
示 。 宽 频带 功能 的 电话 听 简 在 HATS 的 右 耳 进行 模拟 。 一 群 测试 人 员 可 以 同时 
进行 测试 ， 这 样 进行 的 测试 特别 有 效率 。 此 外 ， 监 听 测 试 的 优点 是 ， 主 观测 试 中 所 
评估 的 相同 音频 文件 都 可 用 于 客观 分 析 。 
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图 6.9 第 三 方 倾听 测试 的 双 声 道 录音 原则 (A Gg) 








总 数 为 33 个 测试 条 件 ， 包 括 参考 情景 (无 限 回 声 衰减 )， 也 包括 延 时 、 回 声 
衰减 以 及 谱 上 整形 的 不 同 组合 : 

© 100 ~500ms 之 间 的 往返 延 时 ; 

e 35 ~55dB 之 间 的 回声 衰减 ; 

e 非 线性 残余 回声 的 模拟 。 

通过 下 面 滤波 器 特性 〈 子 集 的 测试 条 件 ) ， 可 了 人 解 谱 回 声 的 内 容 : 

e NB; 窄带 滤波 器 ，300Hz ~ 3. 4kHz; 

e HFl; 3.1 ~5.6kHz; 

e HF2; 5.2 - 8Hz; 

e 1/3 oct. no 1; 900 ~1 120Hz; 

* 1/3 oct. no 5; 2. 24 ~2. SkHz ; 

1/3 oct. no 7; 3. 55 ~4.5kHz; 
1/3 oct. no 8; 4. 5 - 5. 6kHz, 

1/3 ATE UE UZ a EE E; Dr A Ae A) LU] 6. 10 所 示 。 这 些 滤波 
器 对 介 于 1 ~5kHz 的 临界 频率 进行 了 更 详细 的 分 析 ， 从 而 提供 了 声音 和 语音 感知 
的 最 高 灵敏 度 。 

这 里 利用 了 5 点 烦恼 范围 (5 点 : 回声 是 听 不 见 的 ，…，1 点 : 回声 是 非常 恼 
人 的 "中 )， 并 提供 了 没有 进行 配对 比较 的 激励 。 这 个 结果 在 MOS 基础 上 以 及 置信 
区 间 在 95% 的 水 平 上 进行 了 分 析 。 

它 的 第 一 个 分 析 指 出 ， 这 两 个 群体 (业余 与 专业 倾听 者 ) 的 质量 等 级 非常 相 
似 。 因 此 ， 它 们 的 结果 可 以 结合 在 一 起 。 

仅 进行 听力 测试 结果 的 一 个 小 子 集 如 图 6. 11 所 示 。 蓝 色 条 表示 无 回声 的 测试 
条 件 。 在 此 条 件 下 ， 应 该 能 够 得 到 4. 8MOS 的 评级 。 

图 6. 11 中 的 红 条 给 出 了 一 个 例子 ， 来 说 明 在 进行 回声 感知 时 频谱 内 容 的 重要 
性 。 这 两 种 情况 都 代表 了 一 个 200ms 的 往返 延 时 ， 同 时 回声 衰减 40dB。 这 两 种 不 
同 的 滤波 器 特性 “173 oct. 1” 和 “1/3 oct.7” 在 图 6.10 中 作 了 介绍 。 这 个 结果 相 
差 大 约 1 MOS， 表 明 谱 回声 整形 对 主观 评价 有 着 较 大 的 影响 。 
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图 6. 10 ”滤波 器 特性 (测试 条 件 的 子 集 
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图 6.11 子 集 的 听力 测 斌 结果" 


在 回声 信号 e 和 参考 的 耳 信 号 7 之 间 ， 一 个 进行 A 3D“ 相 对 方法 ”的 例子 如 
图 6. 12 所 示 。 回 声 信号 被 记录 在 HATS 的 人 工 耳 中 。 参 考 信号 7 代表 了 在 人 工 耳 
中 的 侧 音信 号 ， 作 为 从 嘴 到 耳 的 声学 侧 音 和 具备 宽频 带 能 力 的 送 话 器 中 通过 送 话 骨 
和 扬声器 的 电子 侧 音 的 结合 。 

在 第 一 种 方法 中 ， 二 维 的 平均 值 mARA, ,根据 下 式 计算 : 
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天 M 
mARA, , = dL. Y, Y, ARA,,(k,m) (6.1) 
KM ; 1 m-1 


式 中 ”天 一 一 频率 带 的 编号 ; 
1 一 一 每 个 波段 的 样本 数目 。 
A3D“ 相 对 方法 ” 
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Al6.12 WKS e 和 基准 耳 信 号 7 之 间 的 A3D“ 相 对 方法 ”ARA,，, G, f) 























为 了 把 客观 的 结果 与 回声 模型 中 的 主观 MOS 相关 联 ， 参 数 回声 损耗 、 回 声 延 
时 和 mARA,_, 被 用 作 线 性 回归 的 输入 信和 号。 

在 第 一 步骤 中 ， 回 归 分 析 中 只 有 回声 损失 和 回声 延迟 这 两 个 参数 。 结 果 显 示 于 
图 6. 13 左边 的 散 点 中 。 得 到 的 相关 系数 r=0.80， 但 是 对 听觉 MOS 和 客观 MOS 的 
比较 ， 显 示 存 在 着 系统 误差 : 相同 的 客观 MOS 集群 出 现在 图 6.13 中 ( 见 箭头 ) ， 
其 分 布 在 较 宽 的 听觉 MOS ( 介 于 1.7~3.7 的 MOS) 范围 内 。 这 可 以 解释 为 ， 这 些 
回声 信号 的 不 同 频谱 内 容 ， 在 主观 测试 中 导致 显著 不 同 的 回声 分 级 一 一 尽管 客观 参 
数 (回声 延 时 和 回 波 衰 减 ) 是 相同 的 。 

图 6. 13 中 右边 的 图 显示 了 听觉 MOS 和 仅 根据 在 二 维 的 平均 值 mARA, ,所 得 到 
的 客观 结果 之 间 的 相关 性 。 此 时 ， 相 关系 数 增加 到 > =0. 84。 利 用 基于 分 析 的 “ 相 
对 方法 ” 隐 式 地 解决 了 系统 误差 。 当 然 这 是 可 以 预期 的 ， 因 为 “相对 方法 ”考虑 
了 人 类 听觉 的 灵敏 度 ， 特 别 是 对 于 发 送 的 声音 具有 不 同 的 频率 特性 。 

mAR4..、 回 波 损耗 和 回 波 延 迟 这 三 个 参数 的 组 合 进一步 增加 了 客观 MOS 的 相 
KE (r =0.90)。 散 点 图 如 图 6. 14 P (ÆR) 所 示 ， 右 图 是 误差 分 布 。 在 84% 的 
测试 条 件 下 ， 客 观 和 听觉 MOS 之 间 的 残余 误差 小 于 0. 5MOS, 

回声 模型 的 发 展 过 程 中 的 下 一 个 步 又 ， 是 对 关于 语音 特性 的 相对 方法 进一步 修 
正 ， 同 时 将 其 应 用 在 A 3D“ 相 对 方法 ”ARA,_，(t, f£). 的 后 处 理 上 。 




































































第 6 章 车 内 宽频 带 免 提 一 一 系统 设计 和 测试 的 新 挑战 101 














客观 MOS 








o MOS 值 (7-0.839) 
ids 

















3 4 
听觉 MOS 听觉 MOS 


图 6.13 客观 与 听觉 MOS (AB: 输入 回 波 损耗 和 回声 时 延 ; 右 图 : 输入 mARA,_,) 
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图 6.14 客观 与 听觉 MOS 以 及 残 差分 布 〈 输 入 参数 mAR4..,、 回 波 损耗 和 回 波 延迟 ) 





6.5 小结 


本 章 介绍 了 能 够 成 功 实现 车 载 宽频 带 免 提 通 信 的 几 个 关键 参数 。 对 延 时 的 影响 
进行 了 分 析 和 讨论 。 基 于 听觉 模 型 方法 ， 针 对 在 背景 噪声 中 的 语音 质量 分 析 以 及 回 
声 性 能 ， 给 出 了 所 得 到 的 新 的 测试 结果 和 分 析 技 术 。 

PORTAL LIE, 来 得 到 用 于 宽带 系统 中 双向 通话 的 分 析 技 术 和 性 能 标 
准 。 显 然 ， 此 项 工作 对 于 罕 带 的 性 能 要 求 和 测试 技术 也 是 有 益 的 。 
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5733 “ 先 讲 后 按 ” (TAP): 一 种 新 颖 
的 方式 启动 车 内 语音 对 话 


Balá zs Fodor, David Scheler 和 Tim Fingscheidt 


摘要 : 在 成 功 向 语音 通话 系统 发 送 语音 通话 指示 之 前 ， 需 要 按 下 讲话 按键 ， 这 
样 既 不 便捷 ， 同 时 在 使 用 者 提前 开始 讲话 时 就 降低 了 识别 准确 度 。 这 一 章 的 内 容 
中 ， 我 们 研究 了 一 种 叫做 “ 先 讲 后 按 ”(TAP) 系统 的 性 能 ， 它 可 以 允许 使 用 者 在 
按 下 通话 键 之 前 或 之 后 一 定 的 时 间 段 内 进行 通话 。 这 种 功能 由 通话 信号 缓冲 器 、 声 
音 回声 消除 装置 、 减 骂 器 和 通话 启动 检测 器 的 共同 作用 来 完成 。 与 最 新 式 采 用 扬 声 
器 静音 程序 的 系统 相 比 ，TAP 系统 提供 的 词语 错误 率 有 明显 的 改善 。 

关键 词 ; 声音 回声 消除 装置 ; 频 域 自 适应 滤波 器 (FDAF); RRB; 语音 自 
动 识别 ; 车 内 语音 通话 ; 讲话 按键 


7.1 简介 





现代 的 车 内 语音 通话 系统 要 求 使 用 者 按 下 通话 按键 (PTS) 来 启动 一 段 通话 。 
按 下 这 个 键 后 通常 跟随 一 个 声音 来 指示 使 用 者 可 以 开始 讲话 。 

实际 上 ， 这 个 程序 经 常 由 于 使 用 者 的 使 用 方法 不 一 致 ， 而 对 系统 性 能 产生 不 利 
的 影响 。 例 如 ， 经 验 不 足 的 使 用 者 没有 等 到 系统 提示 声音 就 已 经 开始 讲话 。 然 而 ， 
通话 启动 系统 (SOU) 很 可 能 在 提示 音 之 前 就 已 开始 工作 ， 或 者 更 精 的 是 在 按 下 通 
话 按键 (PTS) 之 前 。 
类 似 的 情况 也 会 发 生 在 有 经 验 的 使 用 者 身上 ， 他 们 也 许 会 因为 没有 耐心 或 正 专 
注 于 开车 而 经 常 不 遵守 要 求 的 顺序 ， 结 果 导 致 系统 没有 处 理 过 早 的 讲话 部 分 ， 而 最 
终 导致 识别 错误 。 

问题 的 男 一 个 来 源 是 通过 汽车 音响 系统 所 提供 给 免 提 送 话 器 的 音乐 或 语音 的 声 
泄漏 。 由 于 自动 语音 识别 (ASR) 的 引擎 一 般 不 能 从 用 户 的 语音 命令 中 区 分 出 这 些 
信号 分 量 ， 其 结果 将 是 识别 错误 。 在 许多 商业 系统 中 ， 这 个 问题 的 解决 方案 是 : 在 
PTS 键 按 下 后 ， 将 扬声器 静音 。 但 是 ， 静 音 不 能 在 瞬间 执行 ， 从 而 在 送 话 器 信号 内 
留 下 了 一 些 干扰 。 并 有 昌 ， 将 扬声器 信号 静音 并 不 总 是 可 取 的 。 例 如 ， 不 管 系统 是 否 
在 进行 语音 通话 ， 车 载 电 脑 需要 随时 提供 紧急 语音 通知 。 

一 些 最 先进 的 系统 并 不 采用 静音 的 方法 ,而 是 采用 声音 回声 消除 系统 
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CAEC) 2 ， 它 能 估 测 和 消除 免 提 送 话 器 捕获 的 源 自 汽车 扬声器 声音 信号 成 分 。 虽 
然 AEC 使 得 系统 不 必 采 用 静音 的 方法 ， 但 这 种 方法 本 身 仍 然 不 能 直接 启动 通话 。 
一 个 扩展 并 且 更 灵活 的 解决 方案 ， 即 “ 先 讲 后 按 ” (TAP) ， 已 经 在 参考 文献 [3] 
中 提出 来 。 它 允许 用 户 在 PTS 按钮 驱动 之 前 或 之 后 的 一 定时 间 范 围 内 开始 说 话 。 
这 是 通过 通话 回放 缓冲 装置 、AEC 和 和 鲁 棒 的 通话 启动 系统 (SOU) 的 结合 作用 下 
完成 的 。 参 考 文 献 [3] 中 的 实验 在 SkHz 的 采样 频率 下 进行 ， 并 对 AEC 使 用 了 归 
一 化 最 小 均 方 (NLMS) 的 算法 。 

在 本 章 中 ， 我 们 研究 了 在 16kHz 的 采样 频率 下 TAP 系统 运行 的 性 能 ， 并 采用 了 
参考 文献 [4] 中 提出 的 用 于 AEC 的 频 域 自 适应 滤波 器 (FDAF)。 虽 然 从 展望 更 复 
ZR] ASR 任务 的 前 景 可 以 选择 更 高 的 样品 频率 ,但 是 FDAF 具备 比 16kHz 的 NLMS 
算法 更 低 的 计算 复杂 程度 ， 同 时 集成 了 一 个 内 置 的 后 置 滤波 器 ， 用 于 抑制 残留 回声 。 

本 章 的 其 余部 分 安排 如 下 : 7.2 节 概 述 了 TAP 的 系统 架构 ，7.3 节 和 7.4 节 中 
讲述 了 实施 系统 所 需要 的 组 件 一 一 AEC、 降 噪 和 SOU 检测 ，7.5 节 小 结 了 实验 装 
置 ，7. 6 节 中 讨论 了 仿真 结果 。 














7.2 TAP 系统 


我 们 假设 典型 车 内 语音 对 话 系统 的 设置 是 这 样 的 : 它 包 括 坐 在 车 辆 中 的 讲话 者 
(如 四 驶 员 ) 、 一 个 用 于 语音 控制 的 免 提 送 话 右 ， 还 有 在 车 内 的 扬 声 带 系统 的 播放 
语音 提示 或 从 FM 收音 机 中 播放 的 音乐 。 在 送 话 器 中 ， 讲 话 者 的 语音 信号 * 受到 背 
景 噪声 n 和 回声 扬 声 融 信号 d 的 干扰 。 

在 离散 时 间 域 中 ,使 用 ”作为 在 取样 频率 人 = 16kHz 时 的 离散 时 间 指 数 ， 
此 ， 送 话 器 信号 可 以 表示 为 信号 的 求 和 : 

y(n) =s(n) +d(n) +n(n) (7.1) 

这 个 关系 在 图 7. 1 的 左下 角 显 示 。 

x(n) FM 收音 机 信号 PTS 
TAP 系 统 






























ASR, 
初始 化 ,SOU 
触发 器 








LEM 系 统 模型 








,í 免 提 送 话 器 





图 7.1 TAP 系统 框图 
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x(n) 经 过 离散 时 间 与 随时 间 变 化 的 脉冲 啊 应 之 间 的 卷 积 获得 : 
h(n) 2 [hy (n) hi (n) ,ee hyn)] (7.2) 
式 中 WN 一 一 有 限 的 脉冲 响应 长 度 ; 
(a) HE. 
为 简单 起 见 ， 假定 x (n) 是 单 源 信号 。 脉 冲 响应 hn) 模拟 整个 扬声器 一 音 
箱 一 送 话 需 (LEM) 系统 ， 也 就 是 说 ， 从 扬声器 前 面 的 D- A 转换 器 经 由 音箱 到 送 
话 器 后 面 的 A-D 转换 器 这 一 路 径 。 
因此 ， 回 声 的 扬 声 絮 信号 可 以 写 为 
d(n) =h'(n) + x(n) (17.3) 














Xu e 标量 积 ; 

x(n) = [x(n),x(n-1),…,x(n-N+1)] 一 一 长 度 为 NN 的 扬声器 信号 的 时 间 
反 转 片段 。 

如 图 7.1 所 示 ， 在 TAP 系统 的 第 一 阶段 是 AEC 单元 。 它 根据 参考 文献 [4] 
计算 的 回声 分 量 的 估计 值 d(n) ， 并 且 从 送 话 器 信和 号 中 减 去 它 。 

因此 ，LEM 的 系统 的 传递 函数 将 由 7. 3 节 所 介绍 的 FDAF 佑 测 。FDAF 还 包含 
一 个 后 置 滤波 器 ， 它 能 减少 残留 的 回 波 成 分 ， 以 及 送 话 器 信号 中 的 一 些 背 景 噪 
声 n(n)。 

由 此 产生 的 错误 信号 e(n) 在 两 个 不 同 的 分 支 中 进行 处 理 : 如 图 7.1 的 底部 所 
示 ， 它 存储 在 一 个 环形 的 缓冲 区 中 ， 在 没有 进一步 的 处 理 下 即 被 送 到 ASR 引擎 。 
E TAP 系统 上 部 的 分 支 里 ， 它 由 一 个 集成 的 附加 降 噪 器 和 声音 活动 检测 器 (VAD) 
进行 分 析 ， 如 7. 4 节 所 描述 。 后 者 的 输出 是 一 个 缓冲 的 语音 活动 信号 ， 由 一 个 控制 
单元 进行 评估 。 在 接受 一 个 PTS 事件 后 ， 这 个 控制 单元 使 用 以 前 存储 的 和 现在 的 
缓冲 声音 活动 信号 决定 声音 是 否 开始 。 控 制 单元 还 初始 化 和 触发 ASR 引擎 ， 根 据 
检测 到 的 SOU， 可 以 从 低 缓 冲 中 提供 给 ASR 一 个 误差 信号 中 的 正确 部 分 。 














7.3 声学 回声 消除 和 后 置 滤波 器 


我 们 系统 的 AEC 阶段 采用 在 参考 文献 [4]. 中 描述 的 FDAF， 它 结合 了 AEC 和 
后 置 滤波 器 ， 在 频 域 中 进行 残余 回声 和 噪声 的 抑制 。 虽 然 大 多 数 回声 消除 装置 模拟 
Jy LEM 系统 的 脉冲 响应 ， 或 者 它 的 传递 函数 ， 准 确 地 膏 ，FDAF 基于 一 个 统计 学 
模型 。 

正如 参考 文献 [4] 中 提出 的 ， 脉冲 响 应 h(n) 被 模拟 成 一 个 期 望 值 为 ho 
(n) ,方差 拓 量 为 o, (n). 的 随机 过 程 。 

实际 的 估计 是 在 频 域 进行 。 假 设 LEM 路 径 的 变化 是 平缓 的 ，LEM 系统 传递 函 
数 估计 值 H,(k) 递归 更 新 是 根据 : 
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Hi(k) =AH(k) +AH(k) (7.4) 
式 中 Á 时 间 指 数 ; 
/一 -频率 二 进 制 指数 ; 





A =0.9995 一 一 传输 系数 ，; 
AHA( 上 ) 一 一 参考 文献 [4] 用 于 计算 回声 路 径 的 更 新 。 

将 扬声器 源 信号 的 短 时 健 里 叶 变 化 (STFT) AH,CK) 乘 以 估计 的 LEM 传递 函 
数值 H,(k) ， 得 到 短 时 的 谱 域 内 的 估计 回声 成 分 D,(%)。 这 个 估计 值 要 从 送 话 器 信 


号 的 STFT YAA) 中 减 去 ， 来 求 得 错误 信号 RE) 。 请 注意 ， 在 将 STET 应 用 到 信号 
x(n) 和 y(n) 之 前 ， 要 使 用 一 个 截止 频率 为 200Hz 的 高 通 滤波 器 ， 从 中 移 去 低频 
噪声 。 

为 了 减少 噪声 成 分 ， 抑 制 仍然 存在 错误 信号 E(k) 里 的 残余 回声 ，FDAF 又 使 
用 了 一 个 额外 的 频 域 后 置 滤波 器 。 将 它 应 用 到 错误 信号 中 ， 对 所 需要 的 声音 信号 能 
够 得 到 一 个 改善 的 估计 : 
































E(k) =E(k) xW, (k) (7.5) 
其 中 后 置 滤波 器 是 由 一 般 的 Wiener 滤波 器 提供 的 ; 
Ð, (i) 





Wk) = (7.6) 


D, (E) + GU P xBu Kk) +D, (E) 

HD (kh), Da Ak) AD, (E) 来 分 别 表示 所 需要 的 语言 信号 s(n) 的 功率 
谱 密度 (PSD) 、 在 频 域 里 的 回声 路 径 的 协 方差 以 及 背景 噪声 n(n) 的 PSD。 因 为 
协 方差 D, (kh) 能 被 用 作 LEM 系统 识别 的 一 种 不 确定 方式 , RER IXE) | x 
Dy, (E) 可 以 表示 残余 回声 的 PSD。 根 据 参考 文献 [4] 估计 D, (E) AD, (E) 
的 PSD。 最 后 ， 后 置 滤 波 器 的 增益 WAE) 最 低 值 WW,, 等 于 -12.6dB。 


7.4 集成 的 噪声 降低 和 语言 活动 的 检测 














随 着 回 波 消除 ， 残 余 车 辆 的 噪声 n(n) 以 及 一 些 嘟 哪 声 仍 被 包含 于 误差 信号 
e(n)'P, TE TAP 系统 的 上 部 路 径 中 ,在 声音 刚 开 始 的 鲁 棒 检 测 需 要 将 这 些 扰 动 从 
所 希望 得 到 的 语言 成 分 s(n) 中 区 分 开 来 。 现 在 这 个 问题 的 解决 方法 是 ， 将 额外 噪 
声 的 削减 以 及 在 误差 信号 短 时 谱 上 运行 的 VAD 相 结合 。 

由 于 汽车 嘟 嘟 声 的 消失 ， 所 有 对 应 频率 范围 在 1. 83 ~2.45kHz 的 频率 点 都 设置 
为 0。 对 每 个 帧 < 和 频率 点 数 丰 ， 基 于 参考 文献 [5] 和 [6] 所 描述 的 信 品 比 
(SNR) ， 通 过 使 用 Wiener 滤波 器 ， 即 可 以 从 误差 信号 中 得 到 估计 的 干净 语言 频谱 。 
为 了 计算 这 个 SNR， 噪 声 的 功率 谱 密 度 通 过 应 用 一 个 三 态 的 时 间 相 关 和 频率 相关 
的 VAD 来 估 测 3 。 

通过 对 相关 的 频率 点 进行 平均 ，VAD 的 输出 转变 为 一 个 每 帧 的 声音 活动 信号 
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ve [0, 1], ， 然 后 被 储存 在 如 图 7. 1 所 示 的 上 部 环形 缓冲 器 中 。 由 VAD 控制 单位 
来 决定 声音 刚 开始 的 时 间 。 假 定 开始 声音 帧 《iv 是 在 超过 经 验 的 阔 值 之 前 最 新 的 无 
语音 帧 (也 就 是 说 ， v( hou) =0) s 





7.5 实验 装置 


为 了 进行 实验 估计 ， 采 用 了 一 种 用 于 ASR 的 Cambridge Hidden Markov Model 
Toolkit (HTK) ， 来 进行 TAP 系统 的 脱 机 仿真 。 与 物理 的 LEM 系统 不 同 ， 使 用 了 在 
车 辆 内 部 测量 的 一 种 数字 化 的 LEM 脉冲 响应 。 在 下 面 两 部 分 ， 将 描述 近 端 语音 文 
件 和 噪声 以 及 回声 信号。 

作为 参考 ， 我 们 进行 了 一 个 类 似 的 实验 ,让 目前 的 最 新 水 平 代替 TAP 系统 。 
在 PTS 按钮 动作 后 ， 车 内 的 音响 系统 是 静音 的 ， 也 就 是 说 ， 没 有 回声 成 分 被 添加 
在 送 话 器 里 ， 并 且 未 经 处 理 的 送 话 吉 信号 被 传递 到 ASR 引擎 。 因 为 没有 回溯 的 组 
冲 区 ， 任 何在 PTS 事件 之 前 的 语音 部 分 都 被 丢弃 。 


7.5.1 测试 语音 数据 


测试 语音 数据 由 US- English SpeechDat- Car 数字 连接 的 语音 库 "" 的 一 个 子 集 组 
成 。 该 集合 包含 由 35 个 扬声器 发 出 的 210 个 发 音 ， 每 个 语音 包含 4 ~ 16 位 数字 。 
由 于 测试 文件 被 背景 噪声 人 为 消减 025 
(参见 下 一 节 ) ， 我 们 仅 使 用 了 近 上 距 
离 录音 来 大 概 表 示 纯 音 。 "E 
正如 参考 文献 [3] 所 述 ， 相 
对 于 每 个 测试 语音 文件 的 开始 ， 假 
定 PTS 动作 发 生 于 0. 83s。 由 于 语 o1 
音 开始 的 实际 时 间 会 根据 文件 的 不 
同 而 发 生变 化 ， 所 以 可 以 得 到 一 个 0.05 
关于 PTS 事件 的 SOU 概率 位 移 。 图 
7.2 所 示 直 方 图 是 通过 强制 的 Viterbi 0 1 2 3 4 5 
校准 而 生成 的 ， 将 在 语音 测试 文件 Wá 
中 发 现 的 语音 开始 的 分 布 可 视 化 。 图 7.2 SOU 关于 语音 文件 开始 的 归 一 化 的 直 
通过 假设 PTS 事件 在 SOU 的 中 值 ， 方 图 (黑色 的 粗 线 标明 中 值 为 0. 83877) 
过 早 和 延迟 的 语音 都 能 够 被 模拟 。 


7.5.2 回 波 和 噪声 的 人 工 退 化 


我 们 使 用 不 同 的 扬声器 源 信号 来 激发 LEM 系统 ， 同 时 使 用 一 组 汽车 的 噪声 文 
件 来 模拟 对 在 送 话 右 上 所 需 声音 的 和 干扰， 进行 了 两 个 不 同 的 模拟 。 在 一 种 情况 下 ， 








0.15 
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HEHA x(n) 只 包含 从 不 同音 乐风 格 的 6 个 文件 中 随机 选择 的 音乐 。 在 另 一 种 
情况 下 ，x(n) 包括 语音 文件 ， 它 是 随机 选择 从 96 个 语音 文件 中 选择 的 ， 这 96 个 
语音 文件 来 自 NTT- AT 多 语种 数据 库 的 英文 子 集 ， 这 些 语音 文件 由 四 女 四 男 演讲 。 
此 外 ， 在 实际 的 PTS 事件 信号 后 0. 23s， 一 个 频率 在 2. 1 ~2.4kHz 的 蜂 鸣 信和 号 被 添 
加 到 所 有 的 扬声器 信号 源 中 。 然 而 ， 在 基准 参考 的 情况 下 ， 没 有 添加 蜂 鸣 信号 ， 因 
为 我 们 假定 扬声器 严格 地 静音 。 为 了 获得 模拟 的 回声 信号 d(z) ， 扬 声 器 源 信和 号 与 
一 个 大 众 公 司 的 Passat 轿车 所 测 得 的 时 变 LEM 系统 的 脉冲 响应 进行 卷 积 。 

对 于 模拟 的 背景 噪声 分 量 的 n(n) ， 随 机 使 用 4 个 不 同 的 车 辆 噪声 文件 ， 它 们 
由 两 辆 不 同 的 汽车 在 两 种 不 同 的 速度 下 录制 完成 。 

将 噪声 和 回声 的 成 分 分 别 以 不 同 的 信 噪 比率 (SNR). 和 信和 号 一 回 波 比率 
(SER) 添加 到 测试 用 的 语音 信号 中 。 通 过 这 种 方法 ,我们 可 以 研究 不 同 扰动 条 件 
下 系统 的 行为 。 正 如 参考 文献 [3] 中 所 述 ， 根 据 ITU-T 建议 P.56 ， 基 于 激活 
语音 电 平 (ASL) 进行 了 SNR F SER 的 调整 。 然 而 ,在 P. 56 的 电 平 测量 前 ， 所 有 
的 信号 要 通过 50 ~7000Hz 的 带 通 滤波 器 来 消除 与 语音 无 关 的 频率 分 量 。 


7.5.3 自动 语音 识别 设置 


对 Mel 频率 倒 谱系 数 (MECC) 进行 前 端 特征 提取 ， 并 利用 在 美式 英语 连接 的 
数字 串 上 进行 训练 的 一 组 隐 Markov 模型 ， 进 行 了 ASR 试验 。 

前 端 设 置 如 下 : 一 个 预 加 重 值 为 0.9， 帧 偏 移 10ms， 帧 的 长 度 25. 6ms， 一 个 
海 明 窗 和 一 个 512 点 的 FFT。 前 端 没有 使 用 噪声 减少 ， 但 利用 了 含有 轻微 的 车 辆 噪 
声 的 录音 ， 对 HMM 模型 进行 了 训练 。 对 于 每 一 帧 ， 使 用 26 个 均匀 的 梅 尔 刻度 三 
角形 滤波 器 组 通道 ， 并 忽略 了 低 于 SOHz 和 高 于 7kHz 的 频率 ,来 计算 12 个 MFCC 
(没有 第 0 个 系数 ) 。 同 时 附加 了 一 个 对 数 的 能 量 系数 以 及 第 一 和 第 二 阶 时 间 导 数 ， 
并 对 每 一 个 发 音 分 别 进行 倒 谱 均值 的 归 一 化 。 

对 于 声学 模型 ， 我 们 采用 了 42 个 并 列 状 态 的 HMM 来 代表 声学 语音 单位 ， 也 
通过 单词 中 的 三 音 模型 进行 区 分 左 侧 和 右 侧 的 上 下 文 。 每 个 HMM 由 1 ~3 个 发 射 
状态 组 成 ， 其 中 每 个 状态 被 分 配 了 一 个 连续 输出 的 概率 密度 函数 ， 此 函数 由 32 个 
组 件 的 高 斯 混合 模型 建 模 。 假 设 了 对 角 线 的 协 方差 矩阵 。 训 练 的 材料 包括 了 245 VE 
话 人 所 说 的 3325 MAR, C ÆRA US-English SpeechDat- Car 数字 连接 的 语音 
库 ”1 ;为 了 确保 扬声器 的 独立 性 ， 两 个 间断 的 扬声器 被 用 于 训练 和 测试 。 

使 用 经 过 训练 的 HMM 集 来 识别 没有 退化 的 测试 发 声 集 ， 取 得 了 0.59% 的 字 错 
误 率 (WER) ， 这 在 现 有 的 识别 实验 中 是 一 个 下 限 。 















































7.6 结果 


我 们 的 实验 结果 在 表 7. 1 中 加 以 总 结 ， 其 中 列 出 了 不 同 扰动 条 件 所 得 到 的 以 百 
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分 比 表 示 的 WER。 在 情况 (a) 中 ， 回 波 信号 是 音乐 ， 而 在 情况 (b) 中 ， 回 波 信 
号 是 语音 。 作 为 参考 ,标记 为 “静音 ”的 线路 包含 使 用 基准 系统 所 获得 的 结 
由 于 该 系统 被 假定 为 在 接收 PTS 事件 时 ,汽车 扬声器 立即 静音 ， 它 的 性 能 与 回声 
类 型 和 SER 无 关 。 请 注意 ， 对 基准 系统 结果 的 解释 必须 小 心 ， 因 为 它们 在 很 大 程 
度 上 依赖 于 相对 于 SOU 发 生 PTS 事件 的 时 间 。 实 际 上 ， 如 果 比 假设 的 50% 还 多 的 
讲话 者 在 PTS 事件 之 后 才 开 始 发 声 ， 那 么 将 会 产生 更 好 的 基准 性 能 。 然 而 ， 一 个 
实际 的 系统 可 能 遭受 额外 还 没有 考虑 到 的 障 但 : 例如 扬声器 的 静音 将 伴随 额外 的 延 
迟 发 生 ， 此 外 蜂 鸣 信和 号 不 会 在 实践 中 被 省 略 。 
表 7. 1 中 的 结果 显示 ， 在 所 有 测试 条 件 下 ，TAP 系统 都 要 优 于 参考 系统 。 在 没 

有 了 噪声 时 ，SNR 一 oo ，TAP 系统 得 到 的 单词 识别 错误 率 为 0.73 ~2. 29% ， 与 在 参考 
的 情况 下 获得 的 4.20% 相 比 ， 更 接近 0.59% 的 极限 。 此 外 ， 当 SER < ee 时 ,依赖 
T SER 是 可 以 忽略 不 计 的 ， 这 表明 了 即使 在 有 噪声 时 ，AEC 工作 也 是 可 靠 的 。 在 
考虑 参考 文献 [3] 得 到 的 结果 时 ， 与 NLMS 算法 相 比 ， 这 似乎 是 一 个 很 大 的 优 
点 ， 这 可 能 归 因 于 残留 回声 抑制 的 后 置 滤 波 絮 。 

表 7.1 AIR) SNR F SER 条件 TAP 系统 实现 的 WER (96) 

(为 了 比较 而 言 ， 包 括 了 一 个 采用 静音 的 最 先进 系统 的 性 能 ) 

































































SER/dB 
-5 0 5 10 15 20 oo 
静音 73. 41 37.9 14. 93 7. 17 5. 02 4. 54 4.20 
(a) 音乐 回 波 信号 
0 43. 22 22.83 10. 29 5.02 2. 88 2.24 1.90 
42. 83 22. 83 10. 44 4. 83 2.98 2.34 1.95 
SER/dB 
10 42. 73 22.49 10. 59 4. 88 2.88 2.29 1.95 
oo 43. 85 24. 63 11.71 6. 10 3.27 2. 68 0.73 
(b) 语音 回 波 信号 
0 43. 02 22.39 10. 63 5.32 3.17 2.39 2.29 
43. 46 22.39 10. 68 4. 88 3.02 2.34 2.10 
SER/dB 
10 42. 98 22.54 10. 78 5.12 2.93 2.20 2.49 
oo 43. 85 24. 63 11.71 6. 10 3.27 2. 68 0. 73 








然而 ， 当 有 背景 噪声 而 没有 回声 信号 时 (SNR «o, SER), TAP 系统 性 
能 具有 下 降 趋势 ， 这 表明 ， 在 没有 LEM 激励 的 情况 下 ， 后 置 滤波 器 的 运行 不 是 最 
优 的 。 

当 判 断 TAP 系统 SNR 的 依赖 性 时 ， 注 意 以 下 内 容 : 由 于 测试 语音 文件 是 在 车 
辆 内 部 环境 中 的 近 距 离 录音 ， 对 背景 噪声 而 言 ， 它 们 不 是 完全 干净 的 。 因 此 ， 表 
7.1 所 示 的 SNR 值 则 偏向 于 更 高 的 值 ， 因 为 它们 只 是 反映 了 人 为 添加 的 噪声 量 。 
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7.7 小结 


我 们 研究 了 一 个 所 谓 的 TAP 系统 的 性 能 ， 当 启动 一 个 语音 对 话 时 ， 它 能 容忍 
不 完美 的 用 户 行为 。 和 参考 文献 [3] 所 提 及 的 一 样 ， 我 们 已 经 证 明 ， 假 设 有 一 半 
的 用 户 在 开始 对 话 后 很 快 按 下 PTS 按钮 ，TAP 系统 可 显著 提高 识别 性 能 。 这 是 通 
过 两 个 同步 循环 缓冲 区 实现 的 ， 缓 冲 区 提供 了 回 查 能 力 和 和 鲁 棒 的 语音 起 始点 检测 。 
我 们 在 频 域 操作 中 已 包括 了 AEC 和 只 声 降低 单元 ， 用 以 消除 泄漏 到 送 话 器 中 的 扬 
声 髓 信号 以 及 背景 噪声 。 进 一 步 的 研究 将 包括 多 声 道 信号 源 的 AEC 以 及 测量 SNR 
和 SER 的 改进 方法 。 此 外 ， 将 使 用 TAP 系统 进行 评估 更 复杂 的 ASR 任务 。 
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第 8 ee 对 动态 环境 的 认 知 对 话 
系统 : 进展 和 挑战 


Felix Putze 和 Tanja Schultz 


摘要 : 在 本 章 中 ， 针 对 动态 环境 ， 如 汽车 的 认 知 对 话 系 统 的 发 展 方面 ， 提 出 了 
我 们 现 有 的 计划 和 正在 进行 的 研究 ， 包 括 我 们 认为 有 必要 建立 估计 用 户 的 智力 过 程 
(也 就 是 认 知 ) ， 以 适应 他 们 相应 行为 的 对 话 系 统 的 主要 组 成 部 分 。 为 构建 实际 测 
试 和 记录 环境 来 得 到 真实 的 数据 ,采用 了 通 真 的 驾驶 模拟 器 。 我 们 还 需要 在 多 模式 
下 相互 作用 期 间 观察 用 户 ， 基 于 此 数据 来 判断 用 户 当 前 的 状态 。 此 信息 与 认 知 建 模 
组 件 集成 一 体 ， 使 观测 数据 更 加 丰富 。 最 后 ,我们 需要 一 个 对 话 管理 系统 ， 它 能 够 
利用 这 些 信息 相应 地 调整 其 交互 行为 。 本 章 中 ,我们 报告 了 构建 这 些 组 件 方面 的 进 
展 ， 对 在 这 项 工作 中 所 遭遇 的 挑战 及 其 解决 方案 进行 了 概述 。 

Kil: 认 知 对 话 系统 ， 认 知 模型 ， 人 机 交互 作用 ， 用 户 状态 检测 


8.1 简介 


口语 对 话 系统 已 经 相当 成 熟 了 ， 在 现实 生活 中 也 进行 了 很 多 应 用 ， 然 而 在 非常 
动态 的 情况 下 ， 他 们 的 应 用 仍然 是 一 个 空缺 的 上 且 非 常 有 趣 的 任务 。 口 语 对 话 系统 作 
为 汽车 服务 的 接口 是 非常 需要 的 ， 同 时 也 非常 具有 挑战 性 。 一 方面 ， 他 们 从 基本 各 
驶 任务 中 提供 了 不 用 眼睛 和 不 用 手 的 控制 ， 这 样 就 在 主要 的 驾驶 任务 之 外 ， 没 有 视 
觉 或 手动 的 分 心 。 

男 一 方面 ， 这 个 任务 利用 用 户 的 认 知 能 力 ， 因 此 我 们 可 以 不 再 假设 在 多 个 静态 
环境 中 来 处 理 一 个 完全 专注 和 完美 互动 的 事件 。 男 一 个 重要 的 方面 是 适应 个 人 的 言 
好 。 在 驾驶 情况 下 ， 对 话 可 能 会 持续 几 小 时 ， 我 们 必须 既 考 虑 到 用 户 状态 的 改变 ， 
既 要 认 知 工作 量 和 情绪 的 改变 ， 也 要 考虑 到 持久 的 用 户 特 征 ， 如 性 别 和 个 性 。 这 两 
种 类 型 的 个 体 差 异 都 影响 最 佳 的 交互 行为 ， 该 系统 应 该 使 用 户 获得 最 大 满意 度 ， 像 
参考 文献 [1] 所 显示 的 对 用 户 的 研究 。 适 应 措施 拥有 较 大 的 范围 : 一 个 例子 是 通 
过 用 户 的 主动 性 ， 延 迟 非 关 键 的 信息 或 减少 其 复杂 性 ， 来 增加 认 知 的 工作 量 。 另 一 
种 是 根据 用 户 的 情绪 状态 和 个 性 ， 通 过 选择 适当 的 措辞 、 声 音 和 交替 的 行为 对 系统 
进行 调整 。 我 们 建议 根据 多 种 不 同 的 生物 信号 ， 对 用 户 进行 系统 的 多 样 性 观察 和 状 
态 判断 。 这 个 元 数据 通过 对 用 户 心理 过 程 更 详细 的 基于 模型 的 表示 得 到 增强 ， 并 帮 
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助 选择 适当 的 适应 措施 。 将 用 户 认 知 和 感情 状态 进行 全 局 建 模 ， 来 建立 自 适应 互动 
策略 ， 这 方面 是 车 内 对 话 系统 领域 的 新 发 展 。 

经 过 相关 工作 的 回顾 ， 下 面 的 内 容 将 描述 所 有 的 组 件 ， 在 汽车 应 用 中 这 些 组 件 
对 开发 和 评估 认 知 互动 系统 是 十 分 必要 的 鸭 驶 模拟 顺 用 来 创造 更 逼真 的 录音 环 
境 ， 交 互 系统 为 人 机 交互 的 平台 ， 录 音 装 置 收集 数据 来 培训 和 系统 测试 ， 录 音 软件 
来 处 理 多 个 输入 流 ， 用 户 状 态 检 测 框架 和 模拟 人 类 认 知 的 组 件 。 


8.2 ”相关 研究 





在 过 去 的 几 年 中 ， 出 现 了 许多 车 内 对 话 系 统 自 适 应 应 用 用 户 模型 的 研究 方法 。 
与 参考 文献 [2] 相同 ， 他 们 大 多 数 依靠 启发 式 和 间接 用 户 状态 检测 。 

参考 文献 [3] 的 作者 描述 了 一 个 对 话 系 统 ， 该 系统 根据 在 一 个 游戏 界面 上 ， 
针对 根据 来 自 韵律 、 语 言 和 视觉 特征 所 得 到 的 用 户 情 绪 状态 ， 确 定 了 其 手工 制作 的 
策略 。 连 同 互动 的 历史 、 当 前 的 用 户 命令 和 其 他 的 话语 特征 ， 通 过 决定 树 的 形式 ， 
以 对 话 框 策略 来 访问 用 户 的 状态 。 

Fatma Nasoz 和 Christin Lisettit"1 描述 了 一 个 为 智能 驾驶 助手 的 用 户 自 建 模 方法 。 
该 模型 是 基于 贝 叶 斯 网 络 ， 根 据 预 佑 的 驱动 程序 状态 ， 包 括 情绪 状态 、 个 性 和 其 他 
功能 ， 可 以 导出 最 有 用 的 系统 操作 (从 驾驶 安全 的 角度 看 ) ， 部 分 也 来 源 于 生理 的 
测量 ， 如 用 户 的 心率 。 每 个 动作 的 得 分 都 使 用 程序 节点 计算 ， 它 在 给 定 用 户 当 前 状 
态 后 ， 即 可 测量 安全 改进 措施 的 可 能 性 。 

参考 文献 [5] 使 用 类 似 的 决策 理论 以 及 基于 用 户 模型 础 的 行动 评价 方法 ， 其 
中 还 包括 主动 式 传感器 的 选择 机 制 。Cristina Conati[9 提 出 了 一 个 教育 对 话 系统 ， 在 
给 定 用 户 的 情绪 状态 后 〈 源 自 不 同 的 方式 ) ， 这 个 系统 可 以 为 不 同 用 户 来 决定 帮助 
选项 。 这 项 工作 的 网 络 是 基于 认 知 OCC (Ortony, Clore 和 Collins) 评价 理论 ， 其 
中 将 用 户 的 情绪 与 他 们 的 目标 和 期 望 关联 起 来 。 

在 通过 生物 信和 号 来 检测 用 户 状 态 方面 ，Liang、Reyes 和 Lee "| 开 发 了 一 个 
实时 工作 量 分 类 器 ， 在 汽车 上 使 用 了 面部 特征 ， 如 瞳孔 直径 或 视线 方向 ， 这 些 
都 是 从 驾驶 员 的 视频 中 提取 的 。10 个 参与 者 跟随 一 辆 不 同 速度 的 车 进行 辅助 
记忆 和 比较 任务 。 使 用 矢量 支持 机 器 ， 它 们 获得 了 平均 识别 率 为 81. 196 的 识 
别 认 知 工 作 量 。Healey 和 PicardL51 开 发 了 一 个 分 类 器 ,来 监管 在 日 常生 活 中 汽 
车 驾驶 任务 的 压力 值 。 他 们 从 24 个 至 少 50min 持续 工作 时 间 的 真实 生活 驾驶 
中 收集 数据 ， 并 在 他 们 的 系统 中 使 用 了 身体 信号 的 肌 电 图 、 心 电 图 和 皮肤 电 
导 。 线 性 判别 分 析 (LDA) 用 于 维度 降低 ， 一 个 分 类 器 用 线性 决策 函数 ， 能 够 
区 分 三 个 级 别 的 准确 度 ， 即 100% (fifa dk). 94.7% (中 等 工作 量 ) 和 
97. 4% (高 工作 量 ) 。 
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8.3 驾驶 模拟 器 


不 同 互动 策略 的 测试 和 评估 需要 一 个 现实 的 实验 环境 ， 它 能 复制 所 有 实际 生活 
应 用 中 可 见 的 重要 影响 和 干扰 。 在 实际 的 交通 情况 下 记录 一 辆 真正 的 汽车 ， 将 创建 
最 为 真实 的 情景 ， 但 这 种 方法 的 缺点 是 早期 原型 安全 上 的 顾虑 、 缺 乏 可 重复 性 以 及 
缺乏 与 当前 研究 有 关 的 可 靠 的 场景 。 因 此 ， 我 们 决定 构建 一 个 驾驶 模拟 顺 ， 用 于 设 
计 创 造 一 段 真实 的 驾驶 经 历 。 主 要 的 重点 不 是 建立 一 个 物理 上 正确 的 汽车 试验 台 ， 
而 是 模拟 发 生 在 真实 的 各 驶 任务 中 最 重要 的 影响 和 干扰 ， 特 别 是 在 对 话 系 统 的 应 用 
发 挥 了 重要 作用 的 情况 下 。 我 们 根据 一 个 真正 汽车 设计 了 驾驶 模拟 器 ， 保 持 其 完整 
的 内 部 使 之 能 够 提供 一 个 逼真 的 实 车 感觉 。 汽 车 被 投影 墙 所 包装， 可 以 观察 的 区 域 
包括 了 前 方 的 视野 和 侧面 的 窗口 。 该 模拟 带 具 有 通过 发 动机 声音 和 环境 环绕 声音 的 
声音 反馈 功能 ， 同 时 还 具有 座位 上 (通过 触觉 传感器 ) 和 方向 盘 上 (通过 力 反 馈 ) 
的 触觉 反馈 。 

仿真 软件 是 基于 修改 后 的 游戏 引擎 S。 它 扩展 为 能 够 使 用 多 画面 显示 、 支 持 方 
向 盘 以 及 简单 的 环境 交通 管制 。 

它 对 LUA 脚本 情景 的 支持 ， 人 允许 配置 不 同 的 驾驶 阶段 : 我 们 可 以 把 驾驶 员 放 
置 在 宽 冰 的 人 工 环境 下 ， 环 境 中 有 真实 的 城市 和 农村 地 区 ， 为 这 个 系统 定义 一 条 导 
航 方 向 代表 的 路 线 。 可 以 在 定好 的 地 点 处 触发 一 定 的 事件 来 产生 特定 的 交通 状况 ， 
也 可 以 在 环境 中 定位 新 的 元 素 ， 或 者 影响 汽车 的 位 置 或 区 驶 特性 〈 见 图 8.1)。 
















































































图 8.1 动作 中 的 CSL 驾驶 模拟 器 
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8.4 交互 设置 


用 户 在 各 驶 的 时 候 ， 他 们 通过 对 话 系统 进行 互动 (通过 近 讲 送 话 需 来 减少 噪 
声 ) 。 在 当前 的 场景 中 ， 这 构成 一 个 虚拟 的 领航 员 ， 他 在 虚拟 环境 中 扮演 一 个 互动 
导游 和 导航 系统 。 为 了 研究 我 们 感 兴趣 的 这 个 现象 ， 也 就 是 不 同 级 别 的 工作 量 ,， 我 
们 创建 了 专 为 研究 人 机 互动 的 几 种 场景 。 这 包括 处 理 各 种 各 样 的 次 要 任务 、 城 市 和 
农村 的 路 线 和 几 个 触发 事件 。 

虚拟 的 领航 员 出 现在 驾驶 舱 的 屏幕 上 ， 使 用 ThinkingHead? 显示 ， 它 是 一 个 形 
变 3D 头像 ， 并 配备 了 一 种 基于 语法 的 语音 识别 系统 以 及 一 个 语音 合成 组 件 ， 用 
于 和 驾驶 员 进 行 声音 交流 。 领 航 员 被 一 个 轻 量 级 的 交互 管理 器 驱动 ， 它 是 专门 为 
自 适 应 对 话 系 统 的 用 途 设 计 的 。 交 互 管 理 需 使 用 一 个 基于 规则 的 引擎 ， 根 据 
Information State Update (信息 状态 更 新 ) 的 范例 ， 在 匹配 当前 交互 状态 的 先决 条 
件 下 ， 这 个 引擎 执行 一 个 或 多 个 规则 站 。 互 动 状 态 也 包括 一 些 变量 ,， 用 来 描述 
检测 到 的 用 户 状态 ， 从 而 允许 基于 用 户 的 当前 状态 ， 进 行 语言 行为 的 自 适应 
选择 。 

为 实现 一 个 选 定 的 语言 行为 ， 该 系统 还 可 以 根据 用 户 的 状态 ， 在 不 同 风格 之 间 
切换 它 的 行为 。 不 同 的 行为 方式 可 以 在 很 多 方面 改变 语言 行为 的 处 理 ， 例 如 ， 一 个 
语言 行为 实现 的 内 容 ， 其 长 度 和 复杂 性 可 以 根据 用 户 的 工作 量 而 改变 。 另 外 也 可 以 
根据 这 个 参数 来 调整 说 话 速度 、 声 音 的 音量 和 强调 某 些 关键 短语 。 使 用 这 些 参 数 ， 
如 果 检 测 到 一 个 低 工 作 量 的 状态 ， 领 航 员 可 以 展示 一 个 曼 嗪 的 、 口 语 化 的 有 趣 行 
为 。 它 能 够 提供 大 量 的 信息 ， 说 一 些 少见 的 笑话 ， 表 演 一 些 模仿 。 在 高 认 知 工作 量 
的 情况 下 ， 领 航 员 切 换 到 一 个 不 同 的 风格 ， 更 简洁 ， 行 为 不 唐 突 ,来 使 用 有 限 的 可 
利用 认 知 资源 来 传输 最 关键 的 信息 。 在 这 种 风格 中 ， 该 系统 在 互动 中 还 需要 更 多 的 
主动 ， 为 用 户 做 大 量 不 是 很 重要 的 决定 。 

个 用 户 研究 表明 ， 相 比较 于 非 自 适应 系统 ， 适 应 不 断 变 化 的 用 户 认 知 负 
荷 的 行为 ， 对 用 户 而 言 是 更 高 效 ， 也 是 更 令 人 满意 的 。 根 据 工作 负载 级 别 来 改变 信 
息 的 吞吐 量 ， 系 统 可 以 更 好 地 使 用 可 用 的 用 户 认 知 资源 而 不 用 担心 过 载 。 通 过 满意 
度 调 查 问卷 ， 这 种 行为 被 用 户 评 为 情绪 移入 的 和 令 人 满意 的 。 因 此 ， 对 一 个 认 知 互 
动 系统 而 言 ， 提 供 这 种 适应 是 非常 关键 的 。 









































8.5 记录 设 定 


交互 过 程 中 ， 我 们 采用 各 种 信号 来 观察 车 内 用 户 。 这 样 做 是 为 了 多 种 原因 : OB 
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先 ， 一 个 上 自 适 应 的 对 话 系统 需要 在 线 的 数据 流 ， 它 可 以 提取 有 意义 的 描述 用 户 状态 
的 特征 ; 其 次 ， 训 练 自动 识别 系统 来 执行 该 用 户 的 状态 分 类 ， 我 们 需要 提供 大 量 标 
记过 的 训练 数据 ; 最 后 ， 我 们 在 汽车 上 安装 了 多 种 生物 信号 传 感 融 来 得 到 可 靠 的 、 
连续 的 数据 流 ， 而 不 会 妨碍 或 分 散 用 户 太 多 的 注意 力 。 

我 们 采用 以 下 的 设备 来 观察 用 户 : 

e 小 相机 ， 录 制 驾驶 员 脸 和 上 身 的 视频 ， 来 捕捉 面部 表情 和 身体 姿势 。 

。 近 讲 送 话 器 ， 来 记录 用 户 的 话语 。 

e 利用 脑 电 图 测量 大 脑 活动 ， 有 下 面 两 种 可 能 的 方案 

- 带 有 激活 电极 来 获得 最 佳 的 信号 质量 并 且 覆 盖 全 部 脑 区 的 16 电极 的 脑 电 





-为 提高 可 用 性 并 减少 设置 时 间 采 用 盐水 电极 的 一 种 14 个 电极 的 游戏 设备 
(Epoc Emotiv ) 。 

。 伴 有 光 传 感 器 的 手套 ， 来 测量 皮肤 电导 和 心率 。 

。 衣服 上 方 的 呼吸 带子 ， 来 测量 呼吸 频率 。 

。 两 个 面部 肌 电 图 (EMG) 电极 ,来 记录 没有 被 摄像 机 拍摄 的 面部 活动 。 

最 后 三 个 项 目 都 使 用 相同 的 记录 接口 ， 并 被 连接 到 一 个 通用 的 信号 记录 仪 2 或 
直接 通过 蓝牙 连接 ， 从 而 将 阻碍 降低 到 最 低 限 度 。 此 外 ， 通 过 连续 记录 汽车 方向 盘 
的 角度 、 加 速度 和 制 劲 踏板 ， 来 进行 间接 的 运动 监控 。 

在 此 记录 设置 中 ， 通 过 和 一 个 通过 人 为 控制 的 虚拟 领航 员 互 动 ， 在 导游 情境 下 
已 经 收集 了 100 多 个 互动 会 话 。 每 一 个 互动 环节 伴随 着 记录 生理 信号 的 收集 、 手 工 
抄写 以 及 用 户 个 性 、 满 意 度 和 工作 绩效 的 几 个 问卷 调查 的 结果 。 通 过 这 些 大 量 的 收 
集 ， 就 可 以 系统 地 研究 工作 负载 不 断 变化 条 件 下 的 互动 行为 。 


8.6 记录 软件 


元 数据 提取 的 动态 对 话 系统 需要 实时 工作 。 为 此 ， 我 们 需要 采用 和 鲁 棒 、 快 速 
和 便捷 的 方式 来 记录 多 种 生物 信号 流 ， 提 供 接口 来 从 不 同 的 信号 源 读 取 数据 ， 并 
输出 到 不 同 的 接收 器 ， 如 识别 需 或 可 视 化 组 件 。 为 了 满足 所 有 的 需求 ， 我 们 开发 
了 一 个 新 的 记录 软件 叫做 “生物 信号 工作 室 ”"… 。 这 款 软件 采用 模块 化 的 方式 
设计 ， 为 了 从 特定 的 设备 收集 数据 ， 人 允许 连接 任意 的 输入 模块 ;允许 连接 任意 的 
输出 模块 来 写 和 文件、 数据 可 视 化 或 通过 接口 将 其 发 送 到 外 部 识别 软件 。 所 有 
的 模块 共享 一 个 存储 多 个 数据 通道 的 共同 的 通用 数据 格式 ， 和 一 个 包括 采样 频 
率 、 检 测 到 的 错误 等 元 信息 块 。 每 个 模块 都 可 以 连接 到 多 个 接收 器 ， 人 允许 数 据 
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从 一 个 源 被 存储 到 磁盘 以 及 并 行 可 视 化 。 输 入 和 输出 模块 中 间 可 以 安装 许多 的 
中 间 模 块 ， 来 进行 扩大 、 过 滤 或 数据 转换 。 目 前 , 已 具备 了 为 所 有 连接 的 生物 
信号 记录 设备 的 输入 模块 和 几 个 其 他 的 输入 模块 ( 如 陀螺 仪 和 加 速度 传感器 ， 
见 图 8.2)。 

由 于 要 对 不 同和 异步 的 数据 流 进行 处 理 ， 重 要 的 是 时 间 标 记 和 每 个 数据 块 一 
起 存储 ， 以 确保 只 有 属于 一 起 的 数据 被 合并 在 识别 引擎 的 多 通道 融合 中 。 这 些 时 
间 标 记 产 生 于 最 早 的 点 ,通常 在 从 硬件 接口 接收 数据 块 的 时 候 (一 些 设备 能 
生成 硬件 的 时 间 标 记 ， 这 是 最 希望 的 ) 。 数 据 块 中 的 时 间 标 记 是 线性 插值 的 。 不 
管 哪 种 具体 的 记录 设置 ， 针 对 每 个 场景 ， 都 将 每 个 形式 的 一 个 数据 文件 和 详细 的 
日 志文 件 一 起 存储 在 一 个 目录 下 ， 对 于 所 有 的 组 件 允 许 简 单 和 标准 化 的 访问 。 对 
于 在 多 台 机 器 上 分 布 的 记录 ， 时 间 标 记 会 自动 通过 NTP 同步 。 在 这 种 情况 下 ， 
该 软件 也 能 够 远程 控制 来 自 一 台 机 器 上 的 记录 ， 该 机 器 启动 和 监视 其 他 机 器 上 的 
记录 。 























耳机 和 感应 手套 等 的 记录 设置 





这 











图 8.2 (部 分 ) 在 模拟 驾驶 中 带 有 脑 电 图 帽 、 音 步 





8.7 ”用户 状态 检测 


所 收集 到 的 生物 信号 流 被 传递 到 一 个 通用 的 生物 信号 的 分 类 框架 ， 执 行 下 面 的 
步骤 。 首 先 ， 数 据 被 过 滤 并 净化 ， 从 信号 中 除去 技术 上 和 生理 上 的 人 为 因素 。 为 
此 ， 我 们 采用 多 个 源 分 离 技术 ， 如 独立 分 量 分 析 (ICA) ， 以 去 除 从 EEG 信和 号 来 的 
眼睛 瞬 动 信号 ， 或 典型 相关 回归 (CCR) 处 理 的 EMG 中 的 人 为 因素 。 从 净化 的 信 
号 中 ， 我 们 通过 计算 特征 来 描述 它们 。 取 决 于 信号 类 型 和 考虑 中 的 用 户 状态 ， 特 征 
从 不 同 长 度 的 重合 窗 口 提取 。 对 于 生物 信号 ,我们 从 时 域 和 频 域 两 个 域 来 提取 特 
征 。 对 原始 的 特征 进行 计算 第 一 或 第 二 导数 ， 得 到 的 典型 时 域 特征 是 均值 、 方 差 和 
过 零 率 。 频 域 特 征 和 ESG 信号 有 特别 的 相关 性 。 这 里 一 般 的 特征 描述 了 a、B、Yy、 
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5 和 8 带 的 频带 功率 〈 见 参考 文献 [10, 13] 详解 ), 但 是 也 可 以 提供 其 他 特征 ， 
如 利用 小 波 变 换 推 导出 的 特征 。 

对 于 交互 过 程 中 记录 的 语音 信号 ， 我 们 用 软件 Praat9 来 提取 如 高 音 、 基 频 微 扰 
(jitter) 或 来 自用 户 语 音 的 幅度 微 扰 (shimmer) 等 韵律 特征 。 为 了 把 握 语言 特征 ， 
我 们 使 用 Linguistic Inquiry and Word Count. (语言 调查 和 区 分 ) 中 对 词汇 中 的 每 个 单 
词 分 在 一 个 或 多 个 组 中 ,例如 “负面 情绪 词汇 ”或 “自我 参照 ”。Active Appear- 
ance Models ( 主动 外 观 模型 ) 是 用 于 捕捉 车 内 相机 记录 的 面部 表情 和 用 户 活动 所 
包含 的 信息 。 

要 实现 与 人 无 关 的 系统 ， 使 用 范围 归 一 化 或 z 归 一 化 来 对 特征 进行 归 一 化 。 归 
一 化 的 统计 是 针对 额外 的 维持 数据 进行 计算 ， 这 些 数 据 不 用 于 其 他 步骤 的 训练 和 评 
估 。 这 种 类 型 的 数据 也 可 以 以 无 人 监督 的 方式 来 收集 ， 并 作为 注册 数据 来 为 新 用 户 
引导 系统 。 

由 于 已 经 生成 一 个 庞大 的 初始 特征 集 ， 在 训练 步骤 中 采用 正 向 特征 选择 来 
减少 特征 空间 的 维度 ， 在 此 之 前 需要 一 个 基于 相关 的 过 滤 来 减少 选择 的 运行 
时 间 。 

为 了 进行 分 类 ， 最 终 的 特征 矢量 被 传递 到 一 个 统计 分 类 器 中 ， 分 类 器 可 提供 多 
个 变量 ,例如 使 用 径 向 基 函 数 内 核 的 矢量 支持 机 (SVM) 或 基于 线性 判别 分 析 
(LDA) 的 一 个 分 类 器 。 更 确切 地 说 ， 每 个 模式 都 有 一 个 分 类 器 ， 因 为 这 样 将 允许 
对 输入 通道 进行 动态 权重 ， 例 如 解释 噪声 和 有 缺陷 的 传感器 。 为 了 得 出 最 终 的 分 类 
结果 ， 将 所 有 分 类 央 的 输出 进行 结合 ， 使 用 多 数 表 决 。 

一 个 重要 的 用 户 状 态 检 测 的 应 用 是 对 多 种 生物 信号 认 知 工作 量 的 识别 。 在 
一 个 大 型 的 评估 中 ， 我 们 开发 了 一 个 与 用 户 无 关 的 分 类 系统 ， 以 区 分 低 和 高 的 
工作 量 。 对 于 每 个 参与 者 ， 我 们 记录 了 在 驾驶 状况 下 许多 不 同 的 情景 。 放 松 阶 
段 或 简单 的 驾驶 任务 被 标记 为 低 工 作 量 ， 而 在 不 同 的 辅助 任务 中 进行 驾驶 ( 视 
觉 和 听觉 的 认 知 测试 中 ) 被 标记 为 高 负荷 工作 情景 。 从 已 有 的 研究 我们 知 
道 ， 从 使 用 NASA TLX 问卷 评价 主观 的 负荷 ， 这 个 任务 对 应 于 经 验 丰 富 的 负荷 
水 平 。 对 于 针对 从 放松 阶段 以 及 由 于 辅助 区 驶 任务 引起 的 高 工作 负荷 阶段 所 获 
得 的 数据 ， 图 8. 3 总 结 了 使 用 交叉 验证 方法 进行 分 类 所 取得 的 识别 率 。 我 们 可 
以 看 到 ， 对 与 人 员 无 关 的 两 个 条 件 进行 辨别 是 可 能 的 ， 决 策 融合 的 方式 产生 了 
最 好 的 结果 。 
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图 8.3 用 于 在 驾驶 的 情况 下 识别 高 、 低 工作 量 的 两 个 条 件 多 模式 生物 信号 分 类 器 的 识别 率 
展示 了 脑 电 图 、 容 积 描记 (PPG) 、 皮 肤 电导 (EDA), PRI (RESP) 和 决策 层 融 合 的 识别 率 











8.8 认 知 建 模 





如 ACT- R 的 认 知 构架 "中 旨 在 提供 一 个 用 于 模拟 或 预测 人 类 认 知 的 通用 模型 ， 
对 于 在 自 适 应 系统 上 的 应 用 ， 它 们 帮助 代表 和 估计 不 可 预测 的 用 户 状 态 ， 也 可 以 从 
一 个 给 定 的 状态 预测 未 来 用 户 的 行为 。 这 在 两 个 方面 是 非常 有 用 的 。 一 方面 ， 认 知 
模型 可 以 支持 基于 经 验 的 、 生 物 信号 的 用 户 状态 分 类 ， 这 可 以 通过 验证 那些 从 更 正 
式 的 认 知 模型 获取 的 ， 被 心理 学 和 认 知 科学 的 先 验 知识 所 支持 的 信息 来 实现 。 男 一 
方面 ， 认 知 模型 可 以 在 没有 真正 用 户 存 在 的 情境 下 模拟 人 类 的 行为 ， 这 在 一 个 新 系 
统 开发 的 早期 阶段 评估 和 训练 情境 下 是 非常 典型 的 情况 。 

作为 第 一 个 认 知 模型 组 件 ， 我们 采用 了 记忆 和 兴趣 模型 来 代表 用 户 实际 的 
和 潜在 的 话语 项 目的 动机 和 兴趣 。 我 们 这 里 的 重点 是 反映 这 样 一 个 事实 ， 即 用 
户 不 可 能 记得 所 有 的 话语 项 目 以 及 相应 的 感情 色彩 。 在 有 更 重要 的 信息 或 在 时 
间 紧 急 的 情况 ， 对 话 系统 中 断 一 个 正在 进行 的 对 话 这 种 情况 下 ， 这 一 点 是 特别 
重要 的 。 

在 领域 本 体 中 ， 记 忆 模 型 代表 每 个 时 间 片 每 一 个 可 能 话语 项 目的 激活 值 ， 以 及 
这 些 项 目 之 间 的 关系 。 激 活 决 定 了 当前 每 个 项 目 如何 旦 现在 用 户 的 记忆 中 ， 如 何 用 
于 得 到 这 个 项 目 成 功 检索 的 机 会 ， 以 及 执行 这 样 的 检索 过 程 所 需 的 时 间 。 我 们 的 系 
统 是 基于 参考 文献 [15] LTM 模型 所 提出 的 连接 方式 ， 这 种 方式 是 用 来 解决 
ACT-R 的 记忆 模型 中 的 一 些 问题 的 。 在 这 里 ， 每 个 项 目 都 被 表示 为 一 个 节点 ， 与 其 
他 项 目的 边缘 连接 ， 那 些 项 目 通过 语义 、 语 言 或 分 层 相关 。 当 一 个 节点 被 激活 时 ， 
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这 些 边缘 用 于 在 节点 之 间 传 播 激活 ， 例 如 通过 一 个 系统 的 语言 行为 。 我 们 也 延长 
LTM° 模 型 以 便 更 好 地 反映 记忆 系统 的 动态 ， ee in 
重要 的 。 

兴趣 模型 反映 用 户 当 前 对 每 个 项 目的 兴趣 。 这 是 一 个 动态 的 变量 ,不 仅 取 决 于 
情境 (空间 的 接近 ， 所 表达 的 兴趣 ) ， 同 时 也 取决 于 更 一 般 的 、 静 态 的 因素 。 为 了 
表述 这 种 影响 ， 我 们 采用 了 贝 叶 斯 网 络 来 建立 该 兴趣 模型 。 

目前 两 种 模型 都 被 用 于 确定 提供 额外 信息 给 用 户 的 重要 性 的 普通 值 。 这 个 值 允 
许 我 们 衡量 信息 呈现 的 语言 行为 ， 而 不 是 像 导 航 融 或 娱乐 那样 的 其 他 目标 。 把 所 有 
项 目的 消极 激活 相 加 ， 衡 量 每 个 项 目的 兴趣 值 来 获得 这 个 值 。 这 个 分 数 叫做 “能 
力 愿 望 ”， 根 据 愿望 的 一 般 概念 ， 来 描述 个 人 的 需求 和 对 他 情绪 和 行动 的 影响 "| 。 
这 个 分 数 也 被 用 于 决定 系统 将 呈现 给 用 户 的 项 目 ， 因 为 这 些 项 目 最 大 限度 地 降低 能 
力 愿望 。 

在 一 个 导游 引导 的 用 户 研 究 中 ， 表 明 使 用 认 知 模型 来 模拟 交互 是 可 能 的 。 使 用 
记忆 模型 产生 的 用 户 话语 ， 是 模拟 自 对 高 度 活跃 的 项 目 外 部 刺激 和 查询 的 感知 。 在 
这 些 模拟 中 ， 系 统 使 用 它 自 己 的 用 户 记 忆 模 型 ,来 产生 它 的 话语 ， 并 生成 模型 具有 
相似 的 结构 ， 但 在 跟踪 用 户 心 理 到 底 是 怎么 回 事 时 ,活动 分 数 不 同 。 系 统 和 模拟 用 
户 的 这 种 行为 是 在 基于 强化 学 习 的 方式 下 学 习 的 ， 使 用 愿望 机 制 来 衡量 这 些 目 标 。 
所 产生 的 互动 回放 给 人 类 试验 者 ， 类 似 于 人 工 的 黄金 标准 一 样 去 进行 感知 ， 并 显示 
比 基 本 行为 更 好 。 

未 来 记忆 模型 的 应 用 包括 它 对 用 户 理解 模型 方面 的 影响 ， 通 过 依赖 于 相关 项 目 
的 激活 水 平 来 制造 误解 的 机 会 ， 应 用 于 一 致 的 用 户 模拟 方面 进行 评估 和 培训 的 互动 
策略 。 
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8.9 小结 


在 本 章 中 ， 表 明 认 知 交 互 系统 灵活 的 、 通 用 的 、 自 然 的 适应 机 制 已 经 取得 了 很 
irs 我 们 实施 和 测试 了 一 个 真实 的 驾驶 模拟 器 ， 进 行 了 大 量 可 控 且 仍 有 可 信 度 

条 件 下 的 实验 。 

我 们 提出 了 一 个 自 适应 的 对 话 系统 ， 可 以 根据 它 的 用 户 状 态 来 改变 其 行为 。 
我 们 已 经 实施 了 生物 信号 记录 组 件 和 统计 分 类 的 框架 ， 能够 确定 用 户 的 当前 状 
态 ， 例 如 他 的 认 知 工作 量 。 我 们 研究 认 知 模型 构架 来 组 建 用 户 的 愿望 和 模拟 用 户 
的 记忆 。 下 一 步 将 把 所 有 组 件 合 起 来 创建 一 个 系统 ， 它 既 使 用 基于 生物 信号 的 用 
户 状 态 检测 ， 同 时 还 使 用 根据 对 话 策 略 的 预测 模型 ， 可 以 灵活 地 应 对 用 户 状 态 的 
改变 
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摘要 : 作为 车 载 语音 系统 的 逐渐 普及 ， 在 车 辆 的 不 同情 景 下 ， 需 要 特定 编译 的 
数据 开发 /基准 的 算法 用 于 语音 系统 。 本 章 将 介绍 两 个 语料库 的 收集 过 程 和 分 析 : 
(DUT- Dallas Vehicle Noise ( 德 克 萨 斯 大 学 达拉斯 分 校车 辆 噪声 ，UTD- VN) 语 料 
库 ; OCU 移动 车 载 语音 和 噪声 语料库 。UTD- VN 语料库 集中 在 解决 车 内 噪声 环境 
的 变化 。 该 语料库 包括 汽车 里 独特 骂 声 场景 的 汇编 (发 动机 总 速 、AC 和 车 窗 关 闭 
等 )， 以 及 这 些 场 景 对 不 同 品牌 和 型 号 所 导致 的 变化 。 另 一 方面 ， 对 一 个 车 载 语音 
系统 ， 除 了 噪声 之 外 还 需要 解决 的 是 ， 在 执行 驾驶 任务 时 驾驶 员 的 情绪 和 任务 的 压 
Jj, CU 移动 语料库 专注 于 收集 这 样 的 数据 ， 用 来 描述 在 车 内 环境 中 对 话语 言 的 变 
化 。 已 经 进行 一 个 抽样 调查 ， 结 果 表 明 ， 使 用 UT 达拉斯 车 辆 噪声 语料库 ， 对 不 同 
的 车 辆 ， 这 些 环境 是 惟一 的 。 这 表明 ， 针 对 不 同 的 车 辆 平台 详细 分 析 其 变化 ， 对 成 
功 部 署 语音 系统 是 有 必要 的 。 我 们 认为 这 些 语料库 是 第 一 个 结合 在 车 内 环境 的 谈话 
内 容 来 描述 环境 变化 的 。 

关键 词 : 汽车 噪声 ; 命令 和 控制 ; 加 强 ; 环境 的 变化 ; HMR; 导航 ; d 


d; 语音 识别 ; 语音 系统 ; 压力 


9.1 简介 


在 对 话 系统 中 可 以 进行 基于 语音 的 商务 、 消 息 或 信息 交换 以 及 其 他 商业 或 
娱乐 交流 ， 汽 车 环境 正在 成 为 一 个 标准 的 /核心 的 位 置 。 然 而 ， 语 音 和 音频 系 
统 今天 所 面临 的 主要 挑战 之 一 是 ， 在 不 同 的 驾驶 条 件 、 汽 车 牌子 和 模型 下 ， 其 
声学 环境 不 同 。 男 外 ， 在 驾驶 过 程 中 由 于 任务 的 诱导 和 情绪 压力 造成 语音 变 
异 ， 在 这 些 情况 下 ， 系 统 都 要 保持 较 好 的 性 能 。 汽 车 语音 系统 有 效 地 利用 了 重 
棒 的 技术 ， 来 应 对 在 车 载 环境 中 遇 到 的 各 种 变化 。 事 实 上 ， 在 汽车 声音 环境 
中 ， 噪 声 和 语音 多 样 性 和 丰富 的 结构 ， 需 要 特定 于 应 用 语音 的 解决 方案 。 这 是 
一 个 具有 挑战 性 的 任务 ， 因 为 汽车 上 有 效 的 通信 系统 ， 需 要 解决 在 汽车 运输 平 
台 和 工作 条 件 下 多 样 性 的 问题 。 男 一 个 伴随 着 环境 的 方面 是 ， 在 典型 的 汽车 
境 中 ， 由 任务 的 多 样 性 和 分 心 造 成 的 情绪 和 任务 的 压力 。 这 些 因素 导致 在 车 内 
环境 遇 到 的 语音 和 噪声 产生 明显 的 声学 变化 。 这 里 的 重点 不 是 随 着 汽车 部 署 语 
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音 系统 所 产生 的 相关 社会 或 法 律 问 题 ， 而 是 语料库 的 发 展 来 解决 汽车 环境 中 遇 
到 的 变化 。 

由 于 不 同 品牌 和 型 号 的 运输 平台 以 及 遇 到 的 操作 环境 的 变化 ， 都 会 导致 运 
输 平台 的 环境 发 生变 化 。 在 声学 变化 中 改变 的 因素 包括 道路 特征 、 天 气 和 汽车 
的 状态 。 道 路 特征 是 在 车 内 噪声 变化 一 个 重要 的 来 源 ， 道 路 的 表面 特性 可 以 改 
变 所 遇 到 噪声 的 特性 〈 例 如 沥青 与 混凝土 、 光 滑 与 裂 颖 或 坑 洼 ) 。 此 外 ， 噪 声 
的 变化 取决 于 天 气 条 件 ， 例 如 雨 、 雪 和 风 等 。 根 据 其 严重 性 ， 这 些 条 件 有 时 会 
掩盖 在 车 内 其 他 的 噪声 事件 /类 型 中 。 本 章 的 重点 是 研究 在 正常 天 气 条 件 下 发 
生 的 变化 。 

即使 在 过 去 已 经 做 出 了 很 大 的 努力 来 研究 汽车 噪声 对 语音 的 影响 ,但 仍然 需要 
一 个 语料库 ， 从 而 能 够 针对 所 有 的 汽车 进行 噪声 事件 及 其 对 语音 系统 影响 方面 的 研 
究 。UT 达拉斯 车 辆 噪声 (UTD-VN) 语料库 则 在 针对 不 同 的 汽车 和 驾驶 条 件 的 一 
组 固定 环境 条 件 ， 来 分 析 所 观察 到 的 变化 。 这 个 收集 是 独一无二 的 ， 因 为 它 包含 了 
不 同 车 辆 平台 上 全 面 收 集 的 噪声 事件 。 这 里 的 样本 分 析 详 细 阐 述 了 在 车 内 环境 的 哄 
声 ， 同 时 显示 针对 不 同 的 汽车 品牌 和 型 号 ， 噪 声 类 型 是 有 区 别 的 ， 这 显示 了 噪声 请 
料 库 的 必要 性 。 这 个 语料库 开辟 了 新 的 研究 领域 ， 由 研究 汽车 噪声 事件 所 得 到 的 知 
识 ， 也 可 以 在 车 内 语音 系统 中 加 以 应 用 。 

在 汽车 环境 中 男 一 方面 的 变化 是 ， 由 于 任务 和 情绪 的 压力 导致 的 语音 变化 。 
CU 移动 语料库 是 一 个 在 用 户 和 车 载 系统 自然 会 话 互动 期 间 所 收集 的 语音 数据 汇 
编 。 在 过 去 ， 已 有 文献 分 析 了 车 内 噪声 对 语音 系统 的 影响 ， 包 括 在 实验 室 环境 中 ， 
在 不 引起 语 声 和 噪声 的 变化 下 固定 噪声 和 语音 采集 的 使 用 。 最 近 ， 一 些 研 究 如 
Kawaguchi 等 人 六 已 经 考虑 了 这 些 变化 。 他 们 的 语料库 集中 于 自然 的 日 语 会 话 ， 在 
车 辆 印 速 和 驾驶 条 件 下 收集 语音 数据 。 这 个 研究 不 包括 由 于 任务 压力 引起 的 语音 环 
境 变 化 。CU 移动 着 重 于 编译 在 汽车 环境 中 以 及 随 着 真实 的 驾驶 任务 遇 到 的 各 种 环 
境 中 ， 不 同 的 声学 条 件 下 语音 的 变化 。 这 个 数据 从 6 个 不 同 的 车 辆 中 收集 。 这 个 语 
料 库 的 核心 包括 来 自 美国 6 个 城市 超过 300 个 说 话 人 ， 含 有 线路 导航 对 话 的 5 个 语 
音 风 格 的 场景 。 这 个 语料库 收集 的 噪声 等 同 于 在 汽车 环境 中 观察 到 的 超过 14 种 不 
同 的 噪声 情景 。 

CU 移动 的 目标 是 随 着 算法 和 技术 的 进步 ， 能 够 通过 移动 的 、 免 提 环 境 的 语音 
对 话 系统 ， 来 进行 鲁 棒 的 信息 接 入 和 输出 。CU 移动 新 颖 的 方面 是 ， 在 语音 和 声学 
车 辆 条 件 下 ， 语 料 库 的 发 展 中 使 用 送 话 器 阵列 ， 来 进行 语料库 收集 。 这 种 设置 能 够 
使 研究 利用 环境 分 类 来 改变 车 内 噪声 条 件 ， 并 将 后 端的 对 话 导 航 信息 检索 子 系统 连 
接 到 WWW。 和 车 载 语音 系统 以 前 的 尝试 一 般 集 中 在 孤立 的 命令 字 上 ， 例 如 设置 无 线 
电 频 率 和 温度 控制 等 ， 而 CU 移动 系统 专注 于 用 户 和 车 载 系统 之 间 自 然 的 对 话 互 
动 。 以 前 在 语音 识别 的 研究 表明 ， 当 讲话 者 处 在 任务 或 情绪 压力 时 ， 其 性 能 有 明显 
的 损失 ， 因 此 开发 对 话 系统 来 最 大 限度 地 减少 朗 驶 员 的 操作 压力 是 很 重要 的 。 系 统 
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在 使 用 CU 移动 方面 的 进展 主要 包括 : 智能 的 送 话 器 阵列 、 听 觉 和 扬声器 为 基础 的 
约束 语音 增强 方法 、 环 境 噪声 特征 化 以 及 语音 识别 模型 适应 方法 来 改变 车 内 的 声学 
条 件 。 

在 这 里 ， 重 点 将 是 在 UTD- VN 语料库 上 ， 同 时 提 及 CU 移动 语料库 的 相关 方 
面 。 结 合 起 来 ， 这 些 语料库 解释 了 在 车 内 语音 和 通信 系统 的 全 面 发 展 中 ， 所 直到 的 
环境 上 以 及 语音 中 大 部 分 的 变化 。 





9.2 UT-D 车 辆 噪声 语料库 


在 UTD- VN 语料库 中 ， 噪 声 数据 样本 是 从 20 辆 轿车 、5 辆 卡车 和 5 辆 
SUV， 在 10 个 不 同 的 噪声 事件 中 收集 到 的 。 为 了 能 够 在 不 同 车 辆 中 便携 地 录 
音 ， 一 种 便携 式 、 重 量 轻 且 高 精确 度 的 数据 采集 设备 被 用 于 获得 准确 的 噪声 数 
据 记 录 。 

用 于 车 内 数据 收集 的 设 
备 有 : 

1) PK SMIOA 近 讲 送 
DID 

2) Sf/K MX391S 4277 
HEIA; 

3) Sil 7 R-09 ic 
录 器 。 

图 9.1 Sawin FEIN 
设备 。 在 数据 收集 过 程 中 ， XN | 
近 讲 送 话 器 (标记 为 A) 由 
驾驶 员 佩戴 ， 来 记录 不 同 条 
件 下 近 讲 送 话 器 得 到 的 噪声 
数据 。 远 场 送 话 器 (B) 已 图 9.1 车 载 便携 式 录音 设备 
经 被 固定 到 驾驶 员 上 方 的 遮 A: #78 SMIOA 近 讲 送 话 器 B: 舒 尔 MX391S 全 方向 送 话 器 
阳 板 上 。 同 时 ， 数据 采集 器 (图 中 未 显示 ) 来 管理 记录 设备 。 

在 汽车 声学 环境 中 ， 对 以 下 事件 来 收集 数据 : 

1) NAWC: 无 空调 器 并 关闭 窗户 ，; 

2) ACWC; 空调 器 工作 窗户 关闭 ; 

3) NAWO: 没有 空调 器 且 打 开 窗 户 ; 

4) HNK: 窗户 关闭 同时 汽车 鸣 笛 ; 

5) TRN: 转向 信号 启用 ; 

6) IDL: ASI LE 
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7) REV: 发 动机 加 速 旋 转 ; 

8) LDR /RDR: 左 / 右 车 门 打开 和 关闭 。 

对 于 这 些 固定 的 活动 ， 噪 声 会 随 着 天 气 和 道路 条 件 而 变化 。 为 了 尽量 减少 
自 变 量 的 数目 ， 如 外 部 噪声 和 道路 特性 ， 针 对 所 有 的 记录 ， 所 采取 的 行驶 路 线 
是 固定 的 。 在 录音 过 程 中 ， 汽 车 的 平均 车 速 为 40mile/h， 数 据 是 在 一 个 路 线 为 
4mile 的 混凝土 公路 上 收集 的 。 路 线 的 选择 是 为 了 包括 高 交通 密度 的 6 车 道 城 
市 道路 和 低 交 通 密度 的 2 车 道 混 凝 土 社区 道路 。 汽 车 噪声 数据 记录 的 时 间 是 
有 限制 的 ， 这 样 是 为 了 最 大 限度 地 减少 由 于 高 峰 时 段 所 造成 的 外 部 交通 
噪声 。 

数据 集合 由 两 部 分 组 成 。 车 内 噪声 事件 的 第 一 组 是 在 德 克 萨 斯 大 学 达拉斯 分 校 
的 停车 场 上 记录 的 。 在 进行 这 些 记 录 时 ， 车 辆 是 静止 的 ， 所 有 的 窗户 都 是 关闭 的 ， 
AC 也 是 关闭 的 。 在 这 些 车 辆 条 件 下 ， 收 集 下 面 的 声音 事件 ; 

1) 转向 信号 (TRN); 

2) 鸣 笛 (HNK); 

3) 前 门 打开 和 关闭 (LDR/RDR) ; 

4) 发 动机 仍 速 (IDL); 

5) 转速 (REV), 

在 这 些 条 件 下 ， 总 记录 时 间 平 均 约 为 6min。 

第 二 组 的 记录 发 生 在 德 克 萨 斯 大 学 达拉斯 分 校 校园 周边 的 道路 上 。 这 些 数据 仅 
在 干燥 天 气 条 件 下 收集 ， 试 验 中 ， 车 辆 完成 了 两 次 路 线 的 驾驶 。 这 条 线路 长 2mile， 
有 2 ~3 个 车 道 ， 车 速 限制 范围 为 30 ~40mile/h。 对 于 这 个 语料库 ， 路 线 被 分 成 7 
个 部 分 ， 对 每 个 部 分 都 分 配 一 个 特定 的 噪声 条 件 。 

图 9.2 和 图 9.3 显示 了 指定 的 路 线 。 线 路 的 7 个 部 分 也 在 图 中 表示 。 图 9.2 
中 ， 两 个 噪声 条 件 (ACWC 和 NAWC) 是 在 第 一 回路 收集 的 。 在 线路 的 A 到 D 段 
中 ， 所 有 的 窗户 和 AC 仍然 是 关闭 的 。 在 线路 的 EE 到 G 段 ,窗户 被 关闭 ， 而 AC 被 
打开 ， 同 时 风扇 满 负荷 工作 。 男 外 ， 图 9. 3 显示 了 在 第 二 循环 中 4 个 噪声 条 件 下 的 
iix, K 段 的 路 线 包括 一 个 讲话 练习 。 在 这 里 ， 要 求 驾 驶 员 大 声 地 3 次 从 0 数 到 9， 
此 时 所 有 的 窗户 和 AC 都 关闭 。NAWC 条 件 下 的 数据 在 L 和 N 段 再 次 被 记录 。 最 终 
的 记录 条 件 是 在 第 昌 段 的 ACWC。 平均 在 路 上 的 记录 时 间 大 约 是 21 ~25min。 这 项 
工作 的 重点 是 NAWC 和 ACWC 条 件 ， 因 为 在 汽车 环境 中 语音 系统 经 常会 遇 到 这 些 
条 件 。 设 计 采 集 设 备 允许 多 个 会 话 的 数据 采集 ， 以 确保 在 汽车 事件 的 录音 中 ， 能 够 
包含 由 于 不 同 的 道路 /交通 条 件 所 引起 的 变化 。 语 料 库 包含 了 总 共 8h 的 汽车 噪声 
数据 。 






















































































第 9 章 ”车载 语 音 和 噪声 语料库 


125 





LI 


^ 
1 ;- 


L 


i 


een 
IS 


es 





Ompbsim S> 
cil E SSN [= 
fron OF | Ss =o 


o— 一 一 


图 9.3 数据 采集 路 线 二 (虚线 表示 特别 的 录音 条 件 ) 
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9.3 CU 移动 





UTD- VN 语料库 处 理 了 包含 不 同 汽车 品牌 和 型 号 在 固定 环境 中 的 变化 。 第 一 部 
分 中 提 到 的 车 内 声学 的 另 一 方面 ， 包 括 由 于 伴随 噪声 的 压力 所 导致 的 语音 变异 。 这 
些 是 在 汽车 环境 中 引起 声音 不 匹配 的 主要 原因 。CU 移动 语料库 着 眼 于 编排 车 内 任 
务 以 及 在 不 同 任务 场景 所 遭遇 到 的 环境 变化 而 导致 的 语音 变化 。 

这 个 语料库 包括 两 个 阶段 : 

。 第 一 阶段 : 语音 和 讲话 者 数据 采集 ; 

。 第 二 阶段 : 声学 噪声 数据 收集 (CU 移动 噪声 ) 。 


9.3.1 第 一 阶段 : 语音 和 说 话 者 数据 采集 


语音 和 说 话 者 数据 采集 分 为 两 部 分 : 中 结构 化 文本 ， 用 户 被 提示 来 读 出 文本 和 
数字 ， 类 似 于 观察 到 命令 和 控制 应 用 ; 四 一 个 对 话 系 统 方案 ， 有 一 个 真人 在 另 
一 端 。 

9.3.1.1 第 一 部 分 : 结构 化 文本 提示 

驾驶 员 执 行 一 个 固定 的 路 线 ， 包 括 多 个 行驶 条 件 (城市 、 公 路 和 交通 噪声 等 ) 
的 组 合 。 对 于 每 一 个 讲话 者 ， 都 会 给 出 下 面 所 列 的 特定 任务 的 提示 ， 这 些 任 务 在 位 
于 杂 物 箱 周围 的 一 台 笔记 本 电脑 上 显示 。 这 部 分 是 30min 长 ， 有 4 个 分 段 ， 包 括 : 

。 导航 方向 短语 部 分 : 一 个 短语 的 集合 ， 确 定 对 车 载 导 航 互动 是 有 用 的 (对 
所 有 讲话 者 的 提示 不 变 ) 。 

o 数字 提示 部 分 : 说 话 者 要 说 出 数字 字符 串 (随机 地 提示 )。 

e 街道 /地 址 /路 线 位 置 部 分 : 在 全 市 范围 内 的 街道 名 称 或 位 置 ; 一 些 街道 名 
尔 会 被 拼写 ， 有 的 名 称 只 是 说 (随机 地 提示 ) 。 

e 句子 : 一 般 语 音 平衡 句子 部 分 ， 生 成 给 说 话 者 的 语音 平衡 句子 集合 (随机 
地 提示 ) 。 

9.3.1.2 第 二 部 分 : Oz 集合 的 对 话 向 导 

在 这 里 ， 称 呼 一 个 人 为 “向 导 ” (WO0OZ) ， 他 引导 试验 者 通过 该 城市 中 确 
定 的 各 种 途径 。 对 每 个 城市 产生 超过 100 种 的 路 线 方案 ， 从 而 用 户 能 够 前 往 该 
城市 他 所 关注 的 位 置 。 人 类 向 导 能 够 得 到 该 城市 的 单位 清单 ， 试 验 者 可 以 要 求 
线路 信息 (例如,“ 我 该 怎样 到 达 最 近 的 派出 所 ?”、“ 我 怎么 到 达 最 有 利 ?”) 。 
用 户 在 车 上 使 用 改动 过 的 手机 ， 人 允许 使 用 记录 器 的 一 路 数字 通道 来 进行 数据 
收集 。 


9.3.2 第 二 阶段 ， 声学 噪声 数据 采集 (CU 移动 噪声 ) 
CU 移动 语料库 的 主要 目标 之 一 ， 是 在 允 真 的 汽车 驾驶 条 件 下 收集 语音 数据 ， 
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用 于 路 线 导 航 和 规划 。 在 选择 用 于 第 二 阶段 在 美国 进行 数据 收集 的 车 辆 之 前 ， 深 入 
的 噪声 数据 是 在 6 辆 汽车 在 科罗拉多 州 博 尔 德 市 收集 的 。 本 节 简 要 总 结 噪声 数据 采 
集 方案 。 

9.3.2.1 车 辆 

一 组 6 辆 汽车 被 选 定 来 进行 车 载 噪声 分 析 。 这 些 车 辆 是 来 自 2000 年 或 2001 年 
(所 有 的 里 程 表 里 程 读数 介 于 11 ~ 8000mile) 的 车 型 。 这 6 辆 车 如 下 : 

e [Cav] 雪佛兰 Cavalier 紧凑 型 轿车 ; 

e [Ven] 雪佛兰 Ventura 小 货车 ; 

e [SUV] 雪佛兰 开拓 者 SUV; 

e [S10] 雪佛兰 S10 加 大 皮卡 ; 

e [Sil] 雪佛兰 Silverado 皮卡 车 ; 

e [Exp] 雪佛兰 Express 多 用 途 车 。 

所 有 的 噪声 条 件 都 收集 于 这 6 辆 车 : 开拓 者 、Cavalier、Venture、 Express, S10 
和 Silverado。 这 些 噪 声 被 标记 为 14 个 类 别 ， 其 中 包括 : 

1) 空闲 噪声 : 发 动机 起 动 后 的 声音 而 不 是 行 台 时， 关闭 窗户 ; 

2) Æ 45mile/h 时 的 噪声 ， 窗 户 打开 Is; 

3) 在 45mile/h 时 的 噪声 ， 窗 户 关闭 ; 

4) f£ 45mile/h 时 的 噪声 ， 窗 户 打 开 一 半 ; 

5) Æ 65mile/h 时 的 噪声 ， 窗 户 打 开 1s; 

6) 在 65mile/h 时 的 噪声 ， 窗 口 关闭 ; 

7) 加 速 时 的 噪声 ， 窗 户 关闭 ; 

8) 加 速 时 的 噪声 ， 窗 户 打 开 一 半 ; 

9) AC (高 ) 噪声 ， 窗 户 关闭 ; 

10) 减速 噪声 ， 窗 户 打 开 1s; 

11) f£ 65mile/h 时 转向 信号 的 噪声 ， 窗 户 关闭 ; 

12) 转向 信号 噪声 ， 窗 户 打 开 1s; 

13) 转向 信号 噪声 ， 窗 户 关闭 ; 

14) 雨刷 噪声 ， 窗 户 关闭 。 

总 共 的 14 种 噪声 条 件 是 在 相同 的 环境 和 地 点 下 ， 对 6 辆 汽车 来 提取 的 。 这 种 
噪声 语料库 专注 于 描述 在 轿车 环境 中 遭遇 到 的 噪声 场景 变化 ， 其 重点 不 在 于 不 同 
汽车 的 变化 ， 这 在 图 9. 4 中 描述 。 如 前 面 所 述 ，CU 移动 的 语料库 是 对 在 汽车 轰 
驶 的 情况 下 遇 到 的 事件 编辑 ， 而 UTD- VN 是 在 各 种 不 同 汽车 和 条 件 下 的 一 些 事 件 
的 编辑 。 
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图 9.4 UTD-VN 和 CU 移动 的 范围 


9.4 噪声 分 析 和 模型 


在 两 个 语料库 中 ， 汽 车 噪声 以 及 环境 噪声 样本 都 可 以 描述 为 汽车 上 起 作用 的 品 
声 源 以 及 汽车 自身 的 声学 环境 的 结合 。 换 句 话 说， 产生 的 汽车 噪声 是 汽车 无 关 噪 声 
(n) 和 汽车 相关 噪声 (ne) 的 函数 。 这 里 ， 假 设 了 一 个 附加 的 模型 (n, ) WE 
9.5 所 示 。 根 据 构成 噪声 的 相对 优势 ， 得 到 的 整体 噪声 可 以 是 3 种 主要 类 型 . 

。 汽车 内 部 主导 噪声 : 如 果 汽 车 相关 的 声音 ， 如 空调 豆 、 扬 声 峰 和 发 动机 声 
音 占 主导 ,那么 产生 的 噪声 n, 对 产生 声音 的 汽车 是 惟一 ( 即 如 有 果 nonu, IBA 
A= ne) 。 为 了 汽车 验证 /平台 识别 的 目的 ， 这 构成 了 最 有 利 的 情况 。 对 于 语音 系 
统 ， 这 意味 着 在 特定 汽车 环境 下 ， 汽 车 特有 的 模型 对 产生 最 佳 性 能 可 能 是 最 优 的 。 

。 汽车 环境 主导 噪声 : 如果 得 到 的 声音 是 汽车 和 其 环境 相互 作用 的 声音 ， 如 
在 道路 上 车 轮 的 声音 或 者 风声 ， 那 么 得 到 的 汽车 噪声 就 不 是 汽车 特有 的 /主导 的 
(Bl n, »n,). 与 以 前 的 情景 相 比 ， 这 种 情况 不 太 有 利于 汽车 的 验证 。 

e 环境 主导 噪声 : 最后， 对 于 汽车 外 部 的 噪声 源 ， 如 来 自 附近 汽车 的 鸣 笛 声 
或 来 自 路 过 的 卡车 的 发 动机 声音 ， 将 被 认为 是 在 本 研究 范围 之 外 的 。 这 是 因为 这 些 
声音 基本 上 不 是 汽车 特有 的 (如 果 n.<n.,， 那 么 .二 n..)。 这 将 在 声学 车 辆 平台 的 
识别 中 导致 混淆 度 增加 。 这 种 情况 下 可 能 需要 最 通用 的 语音 系统 噪声 模型 。 

实际 中 ， 很 难 分 开 得 到 这 些 噪 声 类 型 ， 因 为 在 自然 行驶 状态 的 驾驶 行为 下 ， 所 
有 的 声音 源 不 能 同时 控制 。 然 而 ， 在 汽车 噪声 数据 的 收集 过 程 中 ， 我 们 已 经 通过 仔 
细 选 择 记 录 条 件 ， 来 使 外 部 噪声 最 小 化 。 

为 了 研究 ， 分 析 了 相同 车 辆 中 的 三 种 噪声 条 件 ， 来 得 到 它们 的 频谱 成 分 和 变 
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外 部 噪声 


图 9.5 车 内 声学 环境 的 模型 





化 。 这 些 条 件 包 括 NAWC、ACWC 和 NAWO， 如 图 9.6 所 示 。 选 择 这 些 环境 是 因为 
他 们 发 生 的 概率 很 高 。 此 外 ， 这 些 噪声 情境 代表 特有 的 环境 ， 因 为 在 每 一 种 情况 下 


主导 的 噪声 是 不 同 的 (例如 ,在 ACWC HR, AC 噪声 是 主导 的 ) 。 

在 ACWC、NAWC 和 NAWO 条 件 下 ， 汽 车 声学 环境 的 频谱 成 分 如 图 9.6 所 示 。 
如 图 9. 6b 所 示 ， 当 AC 打开 且 窗 户 关闭 时 ， 汽 车 噪声 基本 不 随时 间 变 化 。 在 这 个 
环境 中 ， 主 要 的 噪声 源 是 AC、 汽 车 发 动机 和 道路 噪声 ， 但 是 AC 是 噪声 的 主导 来 
源 。 谱 的 斜率 表示 ， 相 比 于 其 他 两 种 噪声 类 型 ， 在 ACWC 情况 下 ， 高 频 的 内 容 最 
多 。 此 外 ， 这 个 条 件 是 最 有 利于 汽车 验证 的 ， 因 为 AC 和 风扇 /空气 换 风 是 最 为 主 
导 的 噪声 源 。 在 其 他 两 种 情况 下 ， 风 声 和 道路 噪声 是 主导 的 噪声 源 。 当 AC 被 关 
闭 ， 如 图 9. 6a 所 示 ， 汽 车 噪声 是 道路 和 发 动机 噪声 的 混合 。 当 AC 关闭 和 窗户 关 
闭 时 ， 惟 一 的 汽车 相关 噪声 类 型 是 汽车 发 动机 噪声 ， 它 被 道路 噪声 所 撼 盖 。 最 后 ， 
末尾 的 图 显示 了 NAWO 和 条件， 主要 的 噪声 源 是 风 噪 声 、 道 路 噪声 和 发 动机 噪声 。 
车 窗 关闭 系统 关闭 、 车 窗 打开 
iS run e, OREL. 
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图 9.6 车 辆 声学 环境 
a) 道路 和 发 动机 噪声 主要 是 低频 b) 道路 、 发 动机 和 空调 器 是 频率 更 高 的 结构 c) 风 噪 声 只 有 总 数 存 在 
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另外 两 种 环境 相 比较 ，NAWO0O 具有 最 少 的 车 相关 信息 ， 这 是 由 于 风 噪 声 对 于 
汽车 来 说 是 外 部 的 ， 并 掩盖 了 所 有 汽车 相关 的 信息 。 在 这 里 可 以 看 出 ， 汽 车 相关 只 
声 类 型 是 汽车 类 型 和 汽车 相关 AC 噪声 最 好 的 指标 ， 它 可 以 被 看 作 一 个 车 厢 内 洪 在 
的 激励 源 ， 使 噪声 能 够 携带 更 多 的 汽车 相关 信息 。 为 了 研究 不 同 汽车 在 不 同 的 声学 
条 件 下 的 独特 性 和 可 变性 ， 使 用 十 三 维 高 斯 分 布 来 对 声学 数据 进行 了 建 模 ， 采 用 
Kullback- Leibler 距离 来 分 析 车 内 和 不 同 车 之 间 的 不 同 。 如 图 9.7 所 示 ， 其 中 固体 
区 域 代表 在 特定 的 环境 中 单个 车 辆 的 声学 空间 ， 更 小 的 阴影 区 域 表示 在 相同 的 声学 
事件 中 会 话 对 会 话 的 模型 变化 。 

为 评估 不 同 车 辆 的 区 别 ， 测 量 了 级 内 和 路 级 的 KL 距离 。 如 果 车 辆 声音 事件 在 
些 框 架 内 是 分 开 的 ， 与 级 外 距离 相 比 ， 平 均 的 级 内 距离 将 更 低 。 对 3 辆 车 评估 了 
些 距离 ， 这 些 距离 的 箱 线 图 如 图 9. 8 所 示 。 可 以 看 出 ， 对 这 些 车 辆 条 件 中 的 每 一 
^r, 级 内 (IS). 距离 都 能 够 很 清楚 地 从 级 外 距离 中 分 离 出 来 ， 表 明 在 ACWC 条 件 
下 ,它们 的 谱 是 惟一 旦 彼此 可 区 分 的 。 

从 这 个 讨论 可 以 看 出 ， 汽 车 噪声 环境 是 一 个 混合 了 汽车 相关 和 不 相关 噪声 源 的 
独特 环境 。 根 据 驾驶 条 件 和 道路 情境 ， 环 境 可 能 从 一 个 状态 迅速 变 为 下 一 个 状态 。 
这 些 分 析 还 增强 了 不 同情 况 下 收集 数据 的 必要 性 ， 因 为 车 辆 间 变 化 可 能 是 通用 语音 
系统 标准 化 的 一 个 重要 因素 。 
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图 9.7 在 一 辆 车 内 每 个 噪声 事件 的 级 内 与 级 外 的 距离 说 明 
(每 个 虚线 区 域 表示 一 辆 汽车 ， 它 包围 的 固体 区 域 表 示 会 话 实 例 ) 
CU 移动 语料库 已 经 广泛 用 于 了 解 在 汽车 环境 下 的 噪声 特性 ， 并 利用 这 些 特 性 
为 语音 系统 服务 。 这 些 研究 案例 包括 Akbacak 和 Hansen 的 文献 51 ， 都 对 环境 变化 
进行 了 “环境 监听 ”， 并 使 用 罗浮 计划 建立 了 最 合适 的 模型 。 在 参考 文献 [6] 中 ， 
作者 们 使 用 CU 移动 语料库 来 推进 车 内 系统 的 声控 路 线 导 航 。Hansen' ”对 语料库 和 
CU 移动 的 使 用 场景 进行 了 详细 的 描述 。 
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图 9.8 3 辆 汽车 中 ACWC 的 内 部 和 外 部 的 距离 





9.5 小 结 


本 章 总 结 了 对 UTD- VN 语料库 和 CU 移动 语料库 所 进行 的 大 量 收集 工作 。 
UTD- VN 语料库 包括 了 经 常 在 汽车 环境 中 遇 到 的 各 种 噪声 类 型 。UTD- VN 语料库 包 
含 噪声 数据 ， 并 反映 了 不 同 的 品牌 和 型 号 的 汽车 在 车 辆 噪声 事件 中 的 变化 ， 而 CU 
移动 语料库 包含 了 由 于 任务 和 驾驶 压力 对 语音 变化 所 导致 的 汽车 环境 的 多 样 性 。 使 
JH UTD- VN 语料库 ， 建 立 了 一 个 汽车 噪声 的 模型 ， 并 用 于 说 明 不 同 车 辆 之 间 的 噪 
声 类 型 的 单 值 性 。 这 些 语料库 的 容量 、 多 样 性 和 现实 世界 特性 ， 对 探索 车 辆 语音 技 
术 的 研究 人 员 非 常 有 价值 。 下 一 个 阶段 的 数据 收集 将 是 对 于 车 内 环境 广泛 的 数据 收 
集 ， 并 使 用 多 个 传感器 来 帮助 集成 最 适合 在 车 内 环境 中 的 多 输入 系统 的 发 展 。 
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$103 基于 语音 对 话 系统 互动 的 增强 型 
AAR H Er VO WY R KAA RHEIN 


Tristan Kleinschmidt, Sridha Sridharan 和 Michael Mason 


摘要 当 使 用 非 关 键 的 车 载 系统 时 ， 在 汽车 环境 下 的 语音 识别 已 被 确定 为 减少 
驾驶 者 分 心 的 一 个 有 效 手 段 。 然 而 ， 在 这 样 的 条 件 下 ， 语 音 识 别 精 确 度 显著 降低 ， 
要 求 使 用 像 语音 增强 这 样 的 技术 来 提高 这 些 精确 度 。 极 大 似 然 值 (LIMA) 框架 基 
于 已 经 识别 的 状态 序列 ， 比 如 最 大 限度 地 提高 信号 的 信 嗓 比 ， 而 不 是 传统 的 信号 级 
标准 ， 来 优化 语音 增强 算法 。LIMA 框架 通常 需要 对 语音 进行 校准 ， 来 生成 优化 的 
增强 参数 ， 为 所 有 后 续 的 话语 所 使 用 。 在 这 种 规则 下 ， 发 生 在 噪声 条 件 下 的 非 最 优 
识别 性 能 ， 与 呈现 在 校准 过 程 中 的 性 能 会 有 显著 差异 ， 在 户外 道路 噪声 迅速 变化 的 
环境 中 ， 这 是 一 个 严重 的 问题 。 在 本 章 中 ,我 们 提出 了 一 个 基于 对 话 的 设计 ， 人 允许 
定期 优化 迭代 来 跟踪 不 断 变 化 的 骂 声 条 件 。 使 用 Mel 滤波 器 噪声 减法 (MENS) BE 
行 了 实验 ， 来 确定 在 行车 环境 中 的 优化 需求 。 结 果 表明 ， 需 要 该 最 小 优化 值 来 改善 
语音 识别 、 避 免 过 度 优化 并 最 终 实现 辅助 半 实 时 操作 。 研 究 结果 还 表明 ， 只 需要 结 
合 标 定 的 会 话 ， 对 不 同 的 框架 ， 该 设计 都 能 够 提供 改进 的 识别 性 能 。 

关键 词 ， 自动 语 音 识 别 (ASR); 汽车 语音 识别 ; LIMA HER; Mel 滤波 器 噪声 
减法 (MENS) 


10.1 简介 


随 着 更 多 的 消费 者 希望 集成 电子 设备 如 MP3 播放 带 、 导 航 系 统 和 手机 等 在 他 
们 的 汽车 中 使 用 ,需要 提供 更 为 直观 的 人 机 接口 (HMI) ， 而 不 是 当前 中 低 端 车 型 
中 的 那些 接口 。 自 动 语音 识别 (ASR) 可 以 提供 安全 和 易于 使 用 的 人 机 界面 ， 随 着 
技术 的 进步 ，ASR 系统 能 够 通过 低 成 本 的 硬件 实现 ， 这 是 该 系统 能 够 在 汽车 行业 
中 广泛 使 用 的 一 个 关键 要 求 。 

大 多 数 ASR 系统 都 被 训练 在 受 控 的 情况 下 使 用 (例如 ， 办 公 环 境 或 基于 电话 
的 系统 ) ， 但 是 在 汽车 环境 中 不 断 变 化 的 噪声 条 件 下 ， 它 不 能 产生 令 人 满意 的 效 
果 呈 。 这 是 在 汽车 中 部 署 ASR 的 一 个 关键 挑战 ， 驾 驶 员 要 求 系统 具备 高 精确 度 的 
识别 能 力 ， 但 高 噪声 限制 了 传统 ASR 系统 的 识别 性 能 。 

语音 增强 是 使 ASR 系统 抗 噪声 性 能 更 鲁 棒 的 一 种 常见 方法 。 增 强 技 术 的 目 
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的 是 降低 语音 信号 中 的 噪声 水 平 ， 为 识别 者 提供 干净 语音 模型 (由 于 存在 大 量 
的 数据 ， 从 而 容易 训练 ) 。 这 是 一 个 流行 的 做 法 ， 增 强 算法 通常 很 容易 地 集成 在 
现 有 的 ASR 前 端 处 理 中 ， 同 时 要 求 的 运行 环境 先 验 知识 很 少 甚 至 没有 ， 即 可 达 
到 改善 精确 度 的 目的 。 在 车 载 的 应 用 中 ， 下 面 两 个 方面 都 要 引起 特别 的 注意 : 一 
方面 是 硬件 和 软件 开销 必须 最 小 化 ; 另 一 方面 是 系统 能 够 承受 声学 条 件 不 断 地 
变化 。 

热门 的 语音 增强 算法 ， 如 滤波 器 求 和 波束 形成 (使 用 多 送 话 需 语 音 采 集 ) 
和 谐 减法， 最 初 被 用 于 设计 来 改善 语音 信号 的 可 理解 性 和 质量 ， 而 没有 考虑 对 其 
他 语音 处 理 系统 的 影响 ， 如 识别 '”。 这 些 算法 中 ， 参 数 的 优化 侧重 于 基于 信号 
的 措施 (例如 ， 信 品 比 最 大 化 或 信号 均 方 差 最 小 化 )。 采 用 这 种 工作 方式 的 增强 
技术 可 能 会 产生 精确 度 的 改进 ， 但 这 些 改进 是 优化 过 程 中 的 副产品 ， 而 不 是 它 的 
Hb, 

使 用 语音 识别 似 然 值 ， 而 不 是 质量 或 可 理解 性 ,来 作为 优化 准则 的 研究 中 ， 已 
有 了 可 喜 的 成 果 王 5” 。 增 强 技术 应 用 到 极 大 似 然 化 (LIMA) 框架 中 ， 试 图 同时 对 
所 识别 的 声学 状态 序列 以 及 增强 参数 进行 优化 。 主 要 有 3 种 LIMA 框架 类 型 : 标定 
的 、 无 监督 的 和 监督 的 。 

标定 的 LIMA 框架 需要 已 知 的 适应 话语 ， 以 优化 增强 参数 。 通 过 为 每 个 说 话 者 
使 用 专用 的 校准 会 话 ， 同 时 对 这 个 说 话 者 其 他 话语 的 优化 增强 参数 保持 不 变 ， 来 进 
fife? 。 这 种 方法 假设 噪声 条 件 恒 定 ， 因 此 在 多 变 的 行车 环境 中 ， 要 获得 最 
佳 性 能 是 有 一 定 的 局 限 性 的 。 

一 种 无 监督 的 LIMA 框架 也 在 参考 文献 [2] 中 提出 ， 在 这 种 框架 中 ， 通 过 假 
设 转 录 ， 而 不 是 真正 的 转录 ， 在 一 个 话语 到 话语 的 基础 上 进行 在 线 优 化 。 虽 然 这 种 
方法 消除 了 必须 有 一 个 校准 会 话 这 样 的 限制 ， 并 且 相 当 程 度 地 减少 了 字 错 误 率 '*|， 
但 是 它 高 度 依赖 于 语音 识别 器 的 初始 精确 度 。 用 于 这 些 实验 中 识别 器 的 词 错误 率 较 
高 ( 约 为 60% ) ， 因 为 测试 记录 数据 是 在 一 个 噪声 恒定 的 环境 ， 信 噪 比 相对 较 高 的 
情况 下 获得 的 。 系 统 工作 在 不 是 静止 的 车 载 环境 下 得 到 更 高 的 字 错 误 率 ， 导 致 假设 
转录 的 精确 度 降 低 。 对 不 可 靠 的 转录 优化 应 该 避免 ， 因 为 它 可 能 会 导致 非 最 优 的 参 
数 估计 ， 从 而 进一步 减少 识别 性 能 。 

在 本 章 ， 我 们 考虑 第 3 种 方法 〈( 即 一 个 监管 的 LIMA 框架 ) ， 并 提出 一 个 
基于 对 话 框 的 设计 ， 人 允许 定期 优化 迭代 以 跟踪 不 断 变 化 的 噪声 条 件 。 本 章 回顾 
了 LIMA 框架 ,采用 Mel 滤波 器 组 噪声 减法 (MENS) 用 于 和 车载 语音 识别 。 这 
个 分 析 涉 及 测试 一 系列 校准 适应 场景 ， 以 及 一 个 新 的 在 线 优 化 框架 的 开发 ， 基 
于 语音 对 话 系统 ， 利 用 用 户 确认 正确 认 出 的 声音 命令 ， 来 为 LIMA 框架 提供 适 
应 数据 。 
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10.2 用 于 车 内 环境 的 LIMA Mel 滤波 器 组 噪声 减 除 


10.2.1 极 大 似 然 化 


语音 增强 算法 的 目标 是 产生 改善 人 类 可 理解 性 的 语音 信号 。 自 动 语音 识别 系统 
是 假设 最 可 能 序列 的 统计 模型 ， 是 由 所 观察 到 的 特征 矢量 产生 的 。 因 此 ， 传 统 谱 减 
法 的 优化 算法 基于 波形 标准 ， 如 信 噪 比 最 大 化 5 ， 不 一 定 能 够 改善 ASR 词 准确 性 
[2] 。 使 用 语音 增强 的 主要 目的 是 来 提高 语音 识别 的 准确 性 ，Seltzer 等 [2] 提出 
了 一 个 极 大 似 然 化 框架 ， 用 于 增强 参数 的 优化 。 这 个 框架 最 初 提 出 是 准备 用 于 滤波 
器 以 及 求 和 波束 成 形 ， 但 此 后 被 应 用 于 多 波段 谱 减 法 的 减 除 因 素 ” 。 

在 采用 语音 增强 的 识别 系统 中 ， 特 征 矢量 是 语音 增强 过 程 的 一 个 函数 。 经 常 在 
ASR 系统 使 用 最 优 的 贝 叶 斯 分 类 融 所 提供 的 识别 假说 如 下 : 

w = arg maxP (Z (&) lw) * P(w) (10. 1) 

特征 矢量 Z 对 增强 参数 的 依赖 显而易见 。 声 学 分 数 P (Z (£) | w) 是 
LIMA 系 统 重 要 程度 的 测量 ， 而 优化 所 针对 的 转录 假设 是 已 知 的 ， 因 此 ,语言 模型 
评分 P(w) ABBE, MENS 极 大 似 然 目 的 是 优化 参数 ， 使 所 识别 的 词 序列 之 的 声 
学 分 数 最 大 。 

使 用 默认 参数 来 进行 一 个 初始 解码 传递 ， 生 成 一 个 状态 序列 ;， 用 来 优化 E 
为 了 找到 最 优 的 上 值 ， 对 所 观测 到 特征 的 全 部 似 然 的 对 数 ， 使 用 基于 梯度 的 优化 ， 
定义 如 下 : 
























































L(£) = Mlog(P( (é) | s;)) (10.2) 


对 于 一 个 使 用 高 斯 混合 状态 模型 (如 用 于 本 章 ) 的 隐 Markov 模型 (HMM) 语 
音 识别 器 ， 全 部 似 然 的 对 数 的 梯度 公式 如 下 1 


VLO =- TE) BY (eS) - n) (10.3) 


式 中 iE) 是 对 给 定 观 测 的 特征 矢量 z;(&) 状态 PE m 阶 混合 成 分 的 后 验 
概率 。 

每 个 状态 i 和 混合 成 分 m 都 需 要 声学 模型 的 平均 矢量 jy 和 协 方差 矩阵 了 》 来 计 
算 梯度 。 式 (10.3) 的 其 余 项 是 雅 可 比 和 矩阵 ，9z,(&)/9E， 其 中 包含 特征 矢量 的 每 
个 元 素 对 每 个 增强 参数 的 偏 导数 。 每 个 雅 可 比 元 素 直 接 自 增强 过 程 得 到 (请 参阅 
10.2.3 节 )。 一旦 基于 梯度 优化 收 傅 ， 使 用 新 的 增强 参数 来 生成 男 一 组 特征 矢量 ， 
并 进行 后 续 的 解码 传递 。 一 个 新 的 状态 序列 生成 ， 针 对 这 个 新 的 状态 序列 ， 增 强 参 
数 进一步 优化 。 这 个 流程 将 继续 ， 直 到 识别 的 可 能 ( 和 状态 序列 ) 收敛 ， 保 证 对 
识别 的 状态 序列 和 语音 增强 参数 进行 共同 的 优化 。 
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10.2.2 WAR ASR 的 优化 方法 


10.2.2.1 标定 的 LIMA 框架 

优化 增强 参数 最 简单 、 最 常用 的 方法 ， 是 使 用 校准 会 话 与 一 个 已 知 的 转录 wao 
以 前 的 研究 对 每 个 演讲 者 都 使 用 一 个 已 知 的 话语 ， 来 确定 对 这 个 特定 讲话 者 的 最 优 
增强 参数 ”1 。 

虽然 这 个 过 程 保证 了 对 一 个 正确 的 状态 序列 进行 优化 ， 但 是 校准 LIMA 框架 本 
来 就 假设 校准 和 测试 会 话 之 间 的 背景 噪声 条 件 不 会 发 生 改 变 。 这 是 对 车 载 语音 识别 
系统 的 一 个 重大 挑战 ， 因 为 车 辆 环境 承受 不 断 变化 的 噪声 水 平和 条 件 ， 这 意味 着 上 
次 优化 后 ， 每 次 噪声 条 件 发 生 显著 变化 时 ， 都 需要 进行 话语 标定 。 为 了 克服 这 个 问 
题 ， 对 每 个 常见 的 噪声 条 件 ， 优 化 后 的 增强 参数 可 以 存储 起 来 ; 然而， 这 仍然 还 需 
要 一 个 校准 的 话语 来 用 于 系统 的 某 些 地 方 。 因 为 噪声 条 件 变 化 范围 很 大 ， 用 户 会 不 
断 地 被 要 求 重复 适应 话语 ， 来 获得 最 优 的 一 组 参数 。 这 个 操作 对 驾驶 员 来 说 ， 是 一 
个 不 必要 的 烦恼 ， 可 能 会 导致 这 驶 员 对 语音 对 话 系统 感到 很 诅 形 ， 这 种 情绪 可 能 会 
对 ASR 和 驾驶 性 能 产生 进一步 的 影响 "" 。 

男 一 种 解决 方案 是 对 每 个 开车 情景 只 进行 一 次 校准 会 话 Cla, — Pe WLBS 
启动 话语 ， 如 “开始 对 话 ” 可 用 于 适应 )， 但 这 也 引入 了 识别 性 能 变 糟 的 风险 ， 因 
为 当前 的 噪声 条 件 可 能 与 校准 时 的 条 件 明 显 不 同 。 

校准 框架 也 依赖 于 包含 在 适应 话语 中 的 单词 ， 因 此 ， 适 应 话语 在 语音 学 上 要 平 
衡量 时 间 足 够 长 是 非常 必要 的 ， 这 样 能 够 提供 尽 可 能 多 的 声学 模型 的 覆盖 ， 且 使 所 
优化 的 增强 参数 通用 化 。 这 是 与 大 部 分 对 话 系统 直接 冲突 的 ， 它 们 推 尝 比 人 类 谈话 
更 简单 的 语言 结构 ， 因 此 不 太 可 能 在 语音 学 上 平衡 。 因 此 ， 需 要 一 个 与 对 话 执行 无 
关 的 单独 话语 ， 可 能 被 用 户 视 为 更 加 不 便 ， 因 此 不 适合 这 个 特定 的 应 用 。 

10.2.2.2 无 人 监督 的 LIMA 框架 

参考 文献 [2] 提出 的 无 监督 LIMA 框架 ， 对 于 车 内 环境 可 能 是 一 个 更 合适 的 
选择 。 无 人 监督 的 适应 解除 了 对 校准 话语 的 限制 (从 而 使 适应 过 程 对 用 户 透 明 ) ， 
相反 ， 优 化 发 生 在 发 声 接着 发 声 的 基础 上 。 使 用 非 监督 操作 主要 的 问题 是 ， 它 使 用 
一 个 假设 转录 w， 而 不 是 真正 的 转录 wc。 假 设 的 这 个 转录 非常 依赖 于 基础 声学 模 
型 的 有 效 性 和 维特 比 对 准 所 生成 的 状态 序列 ， 因 此 假设 转录 一 般 不 会 100% 的 
正确 。 

因为 真正 的 转录 w ERMA, A EEES w 中 的 状态 是 不 正确 的 ， 因 为 
错误 识别 和 帧 对 准 错 误 (XE: 即使 转录 提前 已 经 知道 ， 帧 对 准 错 误 仍 将 会 出 现 ， 
但 应 该 有 所 限制 ) 。 这 些 不 准确 的 状态 将 导致 增强 参数 不 是 最 优 的 ， 因 为 优化 是 在 
执行 错误 的 状态 模型 上 进行 的 。 反 过 来 ， 次 优 的 增强 参数 可 能 导致 在 随后 的 解码 状 
态 中 精确 度 进一步 降低 。 在 不 正确 标记 的 帧 的 数量 大 于 正确 标记 帧 时 ， 这 种 影响 是 
非常 可 能 的 ， 而 且 这 种 情况 一 般 是 在 高 噪声 条 件 下 。 
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10.2.2.3 提出 基于 对 话 框 的 LIMA 框架 

使 用 现 有 的 LIMA 框架 来 辨识 问题 ,我 们 建议 利用 一 个 基于 确认 的 语音 对 话 系 
统 来 驱动 优化 。 对 话 系统 要 求 用 户 使 用 简单 的 “是 /不 是 ”回答 来 验证 命令 ， 这 在 
语音 识别 应 用 中 是 一 个 广 为 接 收 的 机 制 。 所 建议 的 带 有 对 话 交 换 的 框架 结构 图 如 图 
10. 1 所 示 。 

通过 执行 一 个 初始 解码 ， 使 用 在 特征 提取 阶段 默认 的 增强 参数 值 ， 该 系统 模拟 
了 校准 和 非 监督 框架 。 这 个 框架 与 之 前 的 工作 不 同 之 处 在 于 初始 的 ASR 传递 。 它 
不 是 立即 执行 优化 ， 而 是 首先 通过 “基准 ”过 程 来 验证 假设 的 单词 序列 ， 这 个 基 
准 过 程 在 对 话 系统 中 是 必需 的 ， 它 是 在 执行 所 需 的 行动 ， 如 确定 路 线 导航 之 前 ， 用 
于 检测 需要 纠正 的 任何 识别 错误 。 

对 于 对 话 管理 器 来 说 ， 每 次 响应 后 从 用 户 那 里 请 求 确认 是 非常 繁琐 的 ， 一 旦 对 
话 系统 收集 了 大 量 的 信息 ， 例 如 郊区 、 街 道 名 称 和 目的 地 址 的 数量 ， 基 准 过 程 将 经 
常 发生。 在 用 户 状态 信息 是 不 正确 的 情况 下 ， 对 话 管理 器 将 尝试 从 这 些 错误 中 恢 
F, 要么 要 求 修 正 的 具体 信息 ,或 重启 对 话 的 人 处理。 在 这 种 实例 下 ， 增 强 参数 保持 
不 变 。 

如 果 噪 声 条 件 在 优化 之 间 发 生 剧 烈 的 变化 ， 也 可 以 根据 对 汽车 环境 状态 的 理解 
来 改变 增强 参数 。 本 章 的 目的 不 是 建议 这 应 该 如 何 去 实 现 ， 而 是 去 分 析 现 有 的 和 建 
议 的 LIMA 框架 的 性 能 ， 以 及 在 汽车 环境 中 这 些 如 何 得 到 最 好 的 利用 。 

当 用 户 确认 信息 是 正确 的 ， 这 个 确认 就 反馈 回 到 对 话 管理 需 来 进行 进一步 处 理 
(如 调用 一 个 外 部 信息 源 ， 像 导航 系统 ) ， 但 也 触发 了 增强 参数 的 优化 。 为 了 将 优 
化 过 程 与 基准 过 程 结 合 起 来 ， 需 要 存储 的 用 户 响 应 以 及 假设 的 状态 序列 ， 如 图 
10. 1 所 示 。 一 旦 确认 ， 该 存储 信息 将 用 于 优化 过 程 ， 如 果 拒 绝 ， 那 么 所 存储 的 状 
态 序 列 就 是 不 可 靠 的 ， 同 时 记忆 可 以 清除 ， 为 错误 恢复 阶段 的 响应 做 准备 。 

所 提出 的 基于 对 话 LIMA 框架 最 主要 的 好 处 是 ,优化 从 未 不 会 在 不 准确 的 假设 
转录 时 发 生 ， 这 克服 了 非 监 督 框架 的 局 限 性 。 

另 一 个 优点 是 能 够 不 断 地 更 新 增强 参数 ， 来 作为 车 内 变化 的 噪声 条 件 。 保 持 前 
面 的 增强 参数 直到 下 一 次 成 功 的 对 话 事务 实现 ， 届 时 噪声 条 件 可 能 已 经 改变 。 其 结 
果 是 ， 基 于 对 话 的 系统 能 够 克服 匹配 的 噪声 条 件 的 需求 ， 而 这 些 噪 声 条 件 是 使 校准 
操作 完全 有 效 所 要 求 的 。 


10.2.3 Mel 滤波 器 组 噪声 减 除 


在 本 章 ， 我 们 研究 对 于 这 个 应 用 的 谱 减 法 增强 算法 ， 用 于 语音 增强 的 谱 减 法 最 
初 是 在 1979 年 Boll 提出 的 。 增 强 通常 在 频 域 内 进行 ， 然 而 子 带 减法 技术 ， 如 参 
考 文献 [9] 提出 的 Mel 滤波 器 组 噪声 减 除 (MENS) 方法 ， 已 广泛 用 于 识别 系统 。 
BabaAli 等 人 "最 近 利 用 参考 文献 [2] 中 所 介绍 的 框架 ， 在 频 域 中 优化 在 多 波段 
谱 减 法 中 的 减 除 比 例 因 子 。 
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图 10.1 提出 的 基于 确认 的 语音 对 话 系统 用 于 利用 LIMA 语音 增强 能 力 的 车 内 语音 识别 














在 哮 杂 的 环境 中 ,语音 SCP) 假定 被 不 相关 的 附加 背景 噪声 DCf) 所 破坏 ， 产 


生 损 坏 了 的 语音 Y(f) 为 


Y(f) =S) «D'Cf (10. 4) 





其 中 频谱 从 帧 ;的 短 时 傅 里 叶 变换 得 到 。 
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一 般 情况 下 ， 从 含 噪声 信号 的 幅度 谱 中 减 去 背景 噪声 幅度 谱 的 估计 ， 来 给 出 干 
净 语 音 幅 度 的 估计 。 在 非 语音 周期 计算 噪声 的 估计 ， 一 般 在 整个 语音 期 间 保 持 不 
变 。 下 面 ， 帧 指数 i 已 从 噪声 估计 中 移 除 ， 来 反映 该 操作 。 

然而 ， 在 本 章 中 ， 我 们 考虑 Mel 滤波 器 组 噪声 的 减 除 ”] 。 运 用 在 语音 识别 中 普 
遍 使 用 的 Mel 频 标 ， 将 频谱 划分 成 数 个 子 带 ， 其 中 f." BUT ”分别 是 第 大 个 Mel 滤波 
带 截 止 频率 的 上 限 和 下 限 。 使 用 此 定义 ，Mel 滤波 顺 噪 声 减 除 的 描述 为 


, TM 
E(k) = J, YA] 





Tia 
rw = ,|50 laf (10.5) 
2 - aE; i alk) p. 
ER) = PA= aBa RAR T L ga 
BE,(k) 其 他 
式 中 E, (k), Ey (k) ME; (k) 一 一 噪声 语音 第 大 个 Mel 滤波 器 的 能 量 、 噪 声 


估计 和 干净 语音 估计 。 

比例 系数 B 表征 信号 能 量 衰减 的 最 高 水 平 ， 并 确保 输出 的 滤波 器 能 量 为 正 值 。 
滤波 器 相关 的 减 除 系数 -a (hk) 用 来 补偿 瞬时 噪声 能 量 的 估计 不 准确 性 。 在 下 面 
的 实验 中 ， 只 对 减法 系数 进行 了 优化 ， 即 

é= [o,, 0, *, a] (10. 6) 

每 个 增强 参数 雅 可 比 矩 阵 的 元 素 gz (a(k))/9a(k) 的 表达 式 ， 可 以 按照 参考 
文献 [10] 来 推导 ， 得 到 ; 

az(a(k)) _ Lg 60 .( D UL M 


àa() ^ 264 BCR) "IE G0 - 8) - «(OE | 
(10.7) 

















式 中 PaA c 的 DCT EERIK o 


10.3 实验 程序 


10. 3.1 实验 数据 


伊利 诺 伊 大 学 收集 AVICAR 数据 库 中 由 数字 串 组 成 的 电话 号 码 任 务 '" 被 用 来 
作为 实验 数据 。AVICAR 数据 库 包含 在 5 个 不 同 的 驾驶 条 件 下 所 记录 的 实时 语音 : 
空闲 (IDL), 35mile/h 时 车 窗 向 上 (35U) 和 向 下 (35D) 以 及 55mile/h 时 车 窗 
向 上 (55U) 和 “向 下 ”(55D)。 所 有 实验 都 使 用 参考 文献 [12] 开发 的 AVICAR 
评估 协议 的 第 一 个 五 实验 集 的 一 个 修改 版 本 。 本 次 评测 数据 由 38 个 说 话 者 组 成 ， 
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全 部 实验 在 所 有 的 噪声 条 件 下 至 少 有 一 个 话语 。 
10.3.2 语音 识别 


发 声 的 解码 使 用 HMM 工具 包 进行 '” 。 说 话 者 无 关 、 上 下 文 相关 的 三 状态 三 
音速 HMM 声学 模型 通过 实验 华尔街 日 报 的 一 个 文集 进行 训练 。 使 用 16 元 素 高 斯 
混合 模型 来 表示 每 个 HMM 状态 。 

对 于 每 个 观察 ， 生 成 一 个 39 维 的 MFCC 特征 矢量 ， 包 含 13 个 MFCC (含有 
CO), 加 上 13 个 A 和 13 个 加 速度 系数 。 施 加 倒 谱 均值 减法 到 每 个 特征 上 。 雅 可 比 
和 矩阵 的 元 素 ， 根 据 式 (10.7) 可 以 从 这 个 特征 的 表达 中 推导 出 来 。 

识别 任务 采用 了 开放 的 字 循 环 语法 ， 因 此， 没有 施加 任何 限制 来 确保 刚好 
10 个 数字 被 识别 。 

本 章 中 所 引用 的 所 有 语音 识别 结果 是 字 的 精确 度 (% ) ， 计 算 公式 为 





























精确 度 - 0D y 100 (10.8) 
式 中 ON— Hs] BS SC; 
D— Bk m ; 
S 一 一 取代 的 数量 ; 


IRA Wace"! , 
10.3.3 优化 迭代 


由 于 LIMA 是 优化 问题 ， 对 一 个 特定 的 噪声 条 件 下 ， 说 话 者 或 声音 的 状态 模式 
下 增强 参数 的 过 度 优化 ， 是 极 有 可 能 的 ， 且 应 加 以 避免 。 这 表明 ， 优 化 的 迭代 次 数 
不 宜 太 大 ， 以 维持 针对 所 有 条 件 的 一 般 性 ， 但 太 少 的 迭代 可 能 会 导致 在 LIMA 框架 
运行 的 效率 比 标准 增强 系统 的 效率 低 。 实 时 操作 (车 内 ASR 的 另 一 个 重要 考虑 因 
R) 也 要 求 有 限 的 迭代 次 数 。 

为 了 解决 这 个 问题 ， 使 用 10. 3.4 节 所 描述 的 只 针对 噪声 的 校准 框架 ， 设 计 了 
两 个 实验 来 确定 在 ASR 的 性 能 与 伪 实 时 操作 之 间 进 行 合 理 的 平衡 。 使 用 这 个 框架 
是 基于 相信 噪声 条 件 比 各 个 说 话 考 对 增强 参数 有 更 大 的 影响 ， 因 为 使 用 的 是 说 话 者 
无 关 声学 模型 。 

在 第 一 个 实验 中 ,使 用 一 个 单一 的 联合 优化 迭代 ( 即 完 全 认 知 和 参数 优化 周 
期 ) ,梯度 下 降 的 迭代 数 发 生变 化 。 第 二 个 实验 改变 了 联合 优化 迭代 的 数目 ， 而 梯 
度 下 降 的 近 代 (根据 上 一 个 实验 决定 ) 保持 恒定 。 这 些 实验 合并 的 结果 决定 了 用 
于 评估 10. 3. 4 节 所 描述 框架 的 优化 水 平 。 

对 于 全 部 实验 ， 所 有 26 个 Mel 滤波 器 组 的 增强 参数 都 被 初始 化 为 a(k) =1。 
这 些 值 是 一 个 合理 的 初始 猜测 ， 因 为 使 用 这 些 值 的 标准 MENS 较 没 有 加 强 系 统 在 语 
音 识别 的 精确 度 有 所 改善 。 
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10.3.4 最 大 化 可 能 性 框架 


利用 AVICAR 数据 库 ， 基 于 说 话 者 或 者 噪声 校准 以 及 两 者 的 组 合 ， 可 以 进行 
LIMA 框架 的 分 析 。 下 面 是 已 经 测试 过 的 LIMA 框架 . 

e 标定 的 LIMA 框架 ， 使 用 了 噪声 一 噪声 基础 上 的 优化 ; 

。 标定 的 LIMA 框架 ， 在 随机 选取 的 噪声 条 件 下 ， 使 用 了 讲话 者 一 讲话 者 基 
础 上 的 优化 ; 

e 标定 的 LIMA 框架 ， 对 每 个 讲话 者 在 每 个 噪声 条 件 下 的 优化 ( 即 匹 配 
条 件 ) ; 

e 提出 的 基于 对 话 的 LIMA 框架 ， 没 有 标定 ; 

e 提出 的 基于 对 话 的 LIMA 框架 ， 在 随机 噪声 条 件 只 有 一 个 单一 的 标定 
话语 ; 

e 提出 的 基于 对 话 的 LIMA 框架 ， 在 傅 速 噪声 条 件 只 有 一 个 单一 的 标定 话语 。 

本 章 中 无 监督 LIMA 框架 没有 被 评估 ， 因 为 语音 识别 器 的 整体 性 能 较 低 (小 于 
50% 的 平均 字 准 确 度 ) ， 使 假设 转录 (同样 ， 所 优化 的 参数 ) 不 可 靠 。 

每 个 校准 的 LIMA 框架 使 用 一 个 单一 的 随机 生成 的 话语 ， 这 个 被 视 为 适应 会 
话 。 对 于 只 有 噪声 的 校准 框架 ， 从 一 个 随机 的 讲话 者 选择 一 个 随机 话语 ， 来 作为 评 
价 协议 中 的 每 个 实验 集 。 对 基于 讲话 者 的 校准 〈 在 校准 和 对 话 框架 都 应 用 ) ， 一 个 
随机 噪声 条 件 下 的 单一 发 声 用 于 每 个 讲话 者 ， 剩 余 的 话语 将 作为 随机 命令 来 模拟 现 
实 的 驾驶 条 件 。 

不 使 用 事先 校准 ， 运 行 所 建议 的 对 话 系 统 ， 每 次 解码 器 正确 识别 电话 号 码 的 所 
有 10 位 数字 ， 就 进行 一 次 优化 。 发 生 第 一 个 优化 之 前 的 话语 和 静态 MENS 系统 表 
现 出 相同 的 性 能 ， 因 此 在 最 后 评价 中 忽略 QE: 这 就 是 为 什么 不 同 的 实验 基准 结 
果 不 同 ) 。 

为 了 模拟 与 先前 优化 的 增强 参数 有 关 的 先 验 知识 ， 使 用 随机 选择 的 或 者 念 速 条 
件 下 的 初始 适应 发 声 ， 来 测试 基于 对 话 的 框架 。 选 择 印 速 状态 ， 因 为 这 是 一 个 可 能 
的 情景 : 用 户 先 与 车 内 的 语音 对 话 系统 沟通 ， 例 如， 在 开始 旅行 之 前 先 输入 目的 地 
址 。 在 第 一 个 后 续 优 化 之 前 发 生 的 (不 包括 校准 ) 所 有 的 话语 ， 在 评价 中 均 被 
忽略 。 














10.4 数据 分 析 和 建议 


10.4.1 梯度 下 降 的 迭代 


梯度 下 降 适 代数 量 的 增加 对 ASR 词语 精确 度 的 影响 见 表 10. 1， 在 表 中 同时 提 
供 了 没有 增强 (基准) 和 带 有 静态 减法 参数 (a(k) =1) MFNS 的 识别 结果 ， 以 便 
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于 比较 。 

这 些 研 究 结果 的 分 析 表 明 ， 每 个 噪声 条 件 下 ， 梯 度 下 降 的 迭代 最 优 数 量 完全 不 
同 。 对 于 更 安静 的 条 件 ( 傅 速 和 35mile/h， 和 车 窗 升 起 )， 所 获得 的 最 好 性 能 是 使 用 
超过 20 次 梯度 下 降 优 化 的 迭代 。 在 嗜 杂 的 条 件 下 ， 不 到 5 次 优化 迭代 即 可 得 到 最 
佳 的 性 能 (尤其 是 55mile/h， 和 车 窗 放 下 的 噪声 条 件 下 )。 这 3 个 条 件 同时 表明 在 迭 
代 次 数 增加 5 次 以 上 时 ， 词 语 精确 度 存 在 降低 的 趋势 。 由 于 噪声 条 件 基 本 上 是 按照 
增加 的 噪声 水 平 排列 的 ， 可 以 得 出 结论 ， 随 着 在 车 内 噪声 的 增加 (〈 即 更 高 的 速度 
或 打开 车 窗 )， 梯 度 下 降 优化 的 程度 需要 降低 ， 从 而 可 以 避免 增强 参数 的 过 度 
优化 。 

与 静态 MENS 相 比 ， 只 有 一 个 梯度 下 降 达 代 中 的 应 用 提供 了 一 个 最 小 0.3% 的 
改善 ， 两 个 35mile/h 的 情景 提高 了 约 1% 。 单 次 迭代 显示 LIMA 框架 以 最 少 的 优化 
提高 ASR 性 能 的 有 效 性 。 

所 有 5 个 噪声 条 件 下 最 佳 的 整体 性 能 是 在 3 次 迭代 。 在 这 个 水 平 上 的 优化 ， 
55mile/h 的 条 件 下 都 表现 出 最 好 的 性 能 ， 而 其 他 两 个 噪声 条 件 下 仅 比 最 佳 性 能 低 了 
0.1% (IDL fll 35D) , 35mile/h 且 车 窗 上 升 的 状态 下 是 惟一 远 低 于 其 最 佳 性 能 
(0.8%) 的 ， 但 与 基线 和 静态 MENS 系统 相 比 ， 仍 然 有 所 改善 。 因 此 ，3 次 梯度 下 
降 迭 代 将 用 于 本 章 中 实验 的 其 余部 分 。 

表 10.1 增加 参数 优化 的 梯度 下 降 和 迭代 时 的 ASR 精确 度 























迭代 IDL 35U 35D 55U 55D 
底线 70.4 48.8 36.2 41.8 23.5 
a(k) =1 73.3 1 73.3 47.8 36.8 
1 73.9 48. 7 37.9 44.8 26.4 
2 74.2 49.3 37.7 44.8 26. 4 
3 74.1 49.1 38.1 45.1 26.4 
4 74.2 49.5 37.8 45.1 26.1 
5 74.1 49. 6 38.2 45.0 25.9 
10 74.2 49. 7 37.7 44. 6 26. 1 
15 74.2 49.8 37.5 44.8 25.6 
20 74.2 49.9 37.6 44. 7 25.7 
25 74.2 49.9 37.6 44. 7 25.7 


10.4.2 KERZ 


确定 了 梯度 下 降 迭 代 的 最 有 效 数量 后 ， 对 联合 优化 迭代 的 数量 进行 了 分 析 。 表 
10. 2 给 出 了 这 些 结果 ， 为 清楚 起 见 突出 显示 了 在 所 有 噪声 条 件 下 的 最 佳 性 能 。 
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表 10.2 增加 联合 优化 迭代 时 的 ASR 结果 





BEA IDL 35U 35D 55U 55D 
底线 70.4 48.8 36.2 41.8 23.5 
a(k) =1 73.3 1 73.3 47.8 36.8 
1 74.1 49.1 38.1 45.1 26.4 

2 74.1 49.4 37.7 44.8 26. 1 

3 73.9 49.9 37.2 44.8 26. 0 

4 74.0 50. 1 37.2 44.5 26. 3 

5 74.0 50.3 37.1 44.4 26.1 

10 74.1 50.2 37.5 44.1 25.9 


除了 35mile/h 与 车 窗 升 上 的 噪声 条 件 外 ， 结 果 表 明 ， 汽 车 语音 识别 只 需要 一 
个 联合 优化 迭代 。 这 一 结果 表明 ， 解 码 的 状态 序列 只 有 轻微 的 变化 ， 因 此 ， 执 行 多 
于 一 次 以 上 的 联合 优化 迭代 似乎 是 没有 优势 的 。 根 据 梯度 下 降 的 迭代 实验 所 观察 到 
的 结果 ， 如 果 状 态 序列 根本 并 没有 改变 ， 那 么 参数 优化 将 刚好 从 上 次 完成 的 位 置 处 
继续 ， 因 此 ， 联 合 优化 迭代 次 数 增加 很 有 可 能 导致 过 度 优 化 的 发 生 。 

结合 10.4. 1 节 ， 这 个 结果 表明 ， 对 行车 环境 中 运行 LIMA 框架 ， 过 度 优 化 是 
一 个 严重 的 问题 。 因 此 ， 建 议 优化 迭代 次 数 要 保持 在 最 低 限 度 ， 以 保持 增强 参数 通 
用 化 。 这 些 研 究 结 果 的 现实 意义 是 ， 能 够 使 用 LIMA 框架 来 实现 ASR 的 性 能 提高 ， 
同时 由 于 只 需要 很 少儿 个 优化 近代， 产生 的 处 理 延 迟 最 小 。 


10.4.3 LIMA 框架 


使 用 在 以 前 实验 中 得 到 的 结果 ， 对 10.3.4 节 所 列 出 的 LIMA 框架 进行 测试 。 
表 10.3 给 出 了 所 有 3 个 校准 帧 框架 的 ASR 结 
表 10.3 校准 LIMA 框架 的 ASR 结果 
























































适应 状况 IDL 35U 35D 55U 55D 
底线 70.4 48.8 36. 2 41.8 23.5 
a(k) 21 73.3 47.8 36. 8 44.5 26. 1 
噪声 74.1 49.1 38.1 45. 1 26. 4 
说 话 者 73.6 49. 5 38.2 44.9 26. 5 
IDL 73.7 49.3 37.8 44. 6 26.8 
35U 73.8 49.9 38.6 45.0 27.0 
35D 73.0 49.4 39.2 45.1 26.7 
55U 74.2 49. 7 37.9 45. 5 26.8 


55D 73.1 49.1 38.2 44. 7 27.1 
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R 10. 3 中 突出 显示 了 与 基于 讲话 者 标定 相 匹 配 的 校准 测试 条 件 。 不 考虑 所 使 
用 的 校准 方法 ， 与 不 利用 LIMA 框架 的 增强 系统 相 比 ， 结 果 有 了 全 面 的 提升 。 

使 用 与 基于 讲话 者 适应 的 匹配 条 件 ( 即 在 每 个 噪声 条 件 下 为 每 个 讲话 者 进行 
标定 ) ， 在 除了 人 怠速 以 外 的 所 有 情况 下 得 到 了 最 好 的 词 精确 度 。 虽 然 与 精确 度 匹配 
条 件 (而 不 是 优化 的 55U) 相 比 ， 龟 速 噪声 条 件 下 减少 0.5% 的 字 识 别 精确 度 ， 但 
是 与 静态 的 MFNS 情况 相 比 ， 字 精确 度 性 能 仍然 有 所 改善 (73.7% 对 73.3% ) 。 总 
之 ， 关 于 这 一 点 目前 还 没有 发 现 明 显 的 问题 。 

为 了 评估 所 提出 的 基于 对 话 的 LIMA 框架 的 有 效 性 ， 忽 略 了 所 有 发 生 在 为 每 个 
讲话 者 所 进行 的 第 一 次 优化 (或 校准 后 的 第 一 个 优化 ) 之 前 的 话语 。 这 种 做 法 是 
必需 的 ， 因 为 所 提出 的 技术 要 求 100% 的 准确 性 ， 以 触发 优化 ， 这 是 在 所 有 话语 的 
3% 上 所 得 到 的 结果 ， 且 主要 集中 在 傅 速 噪声 条 件 下 ， 来 实现 优化 结果 。 优 化 实例 
数 这 么 低 ， 是 由 于 ASR 系统 相对 较 低 的 性 能 和 识别 任务 的 性 质 ， 要 求 所 有 十 位 数 
字 都 要 正确 识别 。 

这 些 最 终 评估 的 结果 在 表 10.4 中 给 出 。 应 该 指出 的 是 ,与 以 前 的 表 相 比 ， 这 
个 表 中 字 的 精确 度 较 好 ， 因 为 这 个 分 析 去 掉 了 很 多 使 ASR 展示 出 较 差 性 能 的 话语 。 

几乎 所 有 表 10.4 中 的 比较 都 表明 ， 为 汽车 ASR 所 提出 的 基于 对 话 框 的 LIMA 
框架 ， 与 基准 的 增强 系统 相 比 ， 其 性 能 有 提高 。 应 用 此 框架 也 可 以 恢复 使 用 标准 的 
Mel 滤波 器 噪声 减法 〈 例 如 ， 在 两 种 35 mile/h 的 噪声 条 件 下 ) 时 所 产生 字 准 确 性 
的 损失 。 
































表 10.4 所 有 LIMA 框架 的 ASR 结果 
























































框架 IDL 35U 35D 55U 55D 

基准 79.1 55.8 42.1 49.8 27.6 

a(k) 21 81.8 53.9 41.6 51.7 30.1 
建议 的 对 话 系统 82.6 55.9 42.3 53.1 31.1 
基准 80.7 55. 5 43.3 49.5 28.6 

a(k) =1 81.4 53.3 45.3 50.0 33.6 
校准 系统 (随机 ) 82.5 55.7 46.4 52.5 33.3 
建议 的 对 话 (随机 ) 82.3 57.7 45.5 52.7 32.3 
基准 80.4 57.1 44. 7 53.3 28.4 

a(k) =1 82.2 52.5 42.9 53.9 30.3 
校准 系统 (IDL) 82.4 55.4 44.6 54.9 31.0 
建议 的 对 话 (IDL) 82.9 55.9 46.0 55.5 30.9 




















使 用 或 不 使 用 显 式 的 校准 时 ， 即 使 优化 实例 的 数量 非常 低 ， 本 次 评估 结果 也 证 
明了 所 提出 的 基于 对 话 的 框架 的 有 效 性 。 对 于 没有 校准 的 情况 下 一 一 这 是 一 个 框 染 
理想 的 运行 行为 ， 因 为 用 户 可 能 完全 不 知道 适应 一 一 与 两 种 基线 系统 相 比 ， 可 以 观 
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察 到 性 能 的 全 面 改 进 ， 与 没有 增强 的 系统 相 比 ， 最 好 的 相对 系统 性 能 的 改进 是 在 仿 
速 状态 下 提高 了 16.7% 。 这 个 结果 显示 了 框架 改善 ASR 精确 度 的 真正 潜力 ， 因 为 
语音 系统 处 于 人 印 速 状态 下 极 有 可 能 引发 优化 过 程 。 与 基准 增强 系统 相 比 ， 所 建议 的 
框架 在 这 种 模式 下 的 操作 ， 其 相对 性 能 有 1.2% ~4. 4% 的 改善 。 

仅仅 校准 的 LIMA 框架 的 改善 也 很 显著 ， 特 别 是 在 念 速 时 进行 校准 。 在 这 种 情 
况 下 ， 相 对 的 改善 范围 为 1.2% ~2.8% (不 包括 在 55D 的 噪声 条 件 下 的 性 能 稍微 
减少 ) 。 由 于 大 多 数 用 户 进 入 他 们 的 车 辆 时 首先 对 车 载 对 话 系统 说 话 ， 这 样 的 结果 
验证 了 所 建议 的 框架 与 校准 的 会 话 相 结合 ， 在 系统 性 能 方面 具有 进一步 改善 的 
潜力 。 

考虑 到 所 提出 的 基于 对 话 系统 的 运行 ， 如 果 在 一 个 特定 的 噪声 条 件 下 连续 优 
化 ， 有 可 能 造成 通用 性 的 损失 (根据 表 10. 2 中 的 结果 )。 然 而 ， 在 表 10. 4 中 持续 
改善 的 结果 表明 ， 这 不 是 一 个 问题 ， 因 为 噪声 条 件 的 规律 变化 似乎 允许 优化 过 程 有 
效 地 跟踪 内 部 的 噪声 条 件 ， 并 适当 地 设置 增强 参数 。 









































10.5 小 结 


本 章 对 用 于 车 内 语音 识别 中 ， 使 用 Mel 滤波 器 噪声 减法 的 极 大 似 然 化 框架 进行 
了 综述 。 同 时 ， 提 出 了 一 个 基于 用 户 确认 的 语音 对 话 系 统 的 新 LIMA 框架 。 针 对 不 
同 的 适应 情况 ， 利 用 校准 LIMA 框架 对 这 个 框架 进行 了 评估 。 

实验 表明 ， 使 用 所 建议 的 LIMA 框架 ， 在 汽车 环境 中 ， 最 佳 的 平均 识别 性 能 所 
需 的 优化 最 少 。 这 使 得 LIMA 框架 能 够 进行 伪 实 时 操作 ， 同 时 仍然 比 标准 的 语音 增 
强 技术 有 改进 。 所 提出 的 基于 对 话 的 框架 ， 与 校准 系统 相 比 ， 能 够 提供 更 高 的 识别 
性 能 ， 这 种 影响 归 因 于 框架 具有 根据 噪声 条 件 的 变化 不 断 更 新 增强 参数 的 能 

致谢 : 这 里 介绍 的 部 分 工作 ， 由 澳大利亚 先进 汽车 技术 联合 研究 中 心 
(AUTOCRC) 资助 。 
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PURE 在 车 载 环 培 中 应 用 变 分 模型 
进行 鲁 棱 语音 识别 的 特征 补偿 


Wooil Kim and John H. L. Hansen 


摘要 : 本 章 提出 了 一 种 新 的 模型 组 合 方法 ， 以 提高 随时 间 变 化 的 背景 噪声 下 情 
况 语 音 识 别 的 性 能 。 我 们 认为 ， 每 阶 个 谱 系数 表示 对 数 频谱 的 包 络 组 件 改 变 的 频率 
程度 。 在 所 提出 的 方法 中 ， 通 过 将 扰动 因素 选择 性 地 施加 到 一 个 基础 模型 上 ， 生 
成 变 分 嗓 声 模型 ， 从 而 得 到 在 对 数 谱 域 中 各 种 类 型 的 谱 模 式 集合 。 基 础 的 噪声 模 
型 由 输入 语音 沉默 的 时 间 段 获取 ， 所 提出 的 变 分 模型 组 成 (VMC) 方法 能 够 为 
我 们 先前 提出 的 特征 补偿 方法 生成 多 个 环境 模型 。 实 验 结果 表明 ， 在 随时 间 变 化 
的 背景 噪声 条 件 下 ， 该 方法 能 够 有 效 地 提高 语音 识别 性 能 ， 针 对 CU 移动 现实 生 
活 车 内 语料库 ， 相 比 现 有 的 单个 基于 模型 的 方法 ， 在 字 错 误 率 方面 有 20. 80% 的 
相对 改善 。 

关键 词 ， 特征 补偿 ; 车 载 环 境 ; 多 模型 ， 鲁 棒 语 音 识别 ; 变 分 模型 组 成 
(VMC) 


11.1 简介 








在 训练 环境 和 语音 识别 系统 工作 条 件 之 间 的 声学 区 别 ， 是 语音 识别 精确 度 降低 
的 最 主要 因素 之 一 ， 同 时 背景 噪声 的 存在 也 是 一 个 主要 因素 。 车 内 语音 系统 目前 需 
要 和 鲁 棒 的 语音 识别 ， 来 适应 一 系列 变化 严重 的 背景 噪声 条 件 。 

为 了 尽量 减少 这 种 不 匹配 ， 进 行 了 广泛 的 研究 ， 对 缓慢 变化 的 背景 噪声 在 最 近 
十 年 的 目标 取得 成 功 的 结果 ， 包 括 多 种 类 型 的 语音 /功能 的 增强 方法 和 模型 自 适应 
技术 。 但 是 ， 这 些 方法 在 随时 间 变 化 的 背景 噪声 条 件 下 几乎 无 效 ， 在 这 种 条 件 
下 ， 随 着 时 间 的 推移 ， 噪 声 特性 需要 有 效 的 估计。 最 近 ， 缺 少 特征 的 方法 已 显示 出 
FEA BR) ， 这 种 方法 不 需要 利用 背景 噪声 的 事先 知识 T V SERE, EA 
高 度 依赖 可 靠 的 分 量 估计 的 能 力 ， 在 随时 间 变化 的 噪声 条 件 下 仍然 导致 性 能 下 降 。 

在 这 项 研究 中 ， 提 出 了 一 种 新 的 模型 分 量 方法 ,来 解决 随时 间 变 化 的 背景 品 
声 ， 例 如 车 内 环境 ， 从 而 提高 语音 识别 的 性 能 。 我 们 的 主要 方法 是 ， 利 用 每 阶 倒 谱 
系数 来 表示 在 对 数 频谱 包 络 线 中 变化 成 分 的 频率 程度 “” 。 在 所 提出 的 方法 中 ， 通 
过 在 倒 谱 域 中 选择 性 地 对 一 个 基础 模型 施加 扰动 因素 ， 来 生成 变 分 噪声 模型 ， 从 而 
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获得 各 种 类 型 的 谱 模 式 。 应 用 所 建议 的 变 分 模型 分 量 方法 生成 了 多 个 环境 车 型 ， 
用 于 我 们 前 面 提出 的 特征 补偿 方法 "”…" 。 该 方法 将 使 用 移动 CU 的 资料 库 来 评 
估 ， 资 料 库 包含 一 个 范围 内 的 声波 信号 ， 这 些 在 现实 生活 中 的 汽车 驾驶 都 能 观 
察 到 。 

本 章 的 组 织 如 下 : 在 11.2 节 ， 我 们 先 回 顾 一 下 本 研究 所 使 用 的 CU 移动 语 料 
库 !5 ,在 11.3 节 , 说 明了 所 提出 的 变 分 模型 分 量 方法 ， 并 详细 描述 了 建立 的 过 
程 。 一 个 基于 多 模型 中 的 特征 补偿 方法 ， 作 为 所 提出 研究 的 应 用 ， 在 11.4 节 描 述 
了 我 们 最 近 研 究 中 取得 的 进展 。11.5 节 给 出 了 代表 性 的 实验 结果 ， 并 加 以 讨论 。 
最 后 ， 在 11.6 节 小 结 了 我 们 的 工作 。 











11.2 CU 移动 语料库 


CU 移动 项 目的 目的 是 , 采用 混合 的 主动 对 话 来 开发 可 靠 的 车 载 导 航 系 统 "| 。 
这 需要 针对 变化 的 声学 条 件 来 进行 鲁 棒 的 语音 识别 。CU 移动 语料库 由 5 个 部 分 组 
成 : 中 命令 和 控制 字 ; 包 电 话 的 数字 串 和 信用 卡号 码 ; @ 街 道 名 称 和 地 址 ; 外 语音 
平衡 句子 ; © “精灵 奥 兹 ”互动 导航 谈话 。 总 共有 500 个 讲话 者 ， 在 性 别 和 年 龄 
上 是 平衡 的 ， 在 美国 各 地 工作 了 6 个 月 ,收集 了 超过 600 GB 的 数据 。 参 考 文献 
[15] 中 详细 讨论 了 数据 库 和 噪声 条 件 。 我 们 指出 ， 噪 声 条 件 是 随时 间 变 化 的 ， 从 
SNR、 平 稳 和 谱 结 构 方 面 有 很 大 的 不 同 。 
解决 这 些 噪声 条 件 所 面临 的 挑战 是 ， 取 决 于 具体 的 汽车 和 道路 状况 它们 可 能 会 
改变 。 在 这 项 研究 中 ， 我 们 从 明尼苏达 州 明 尼 阿 波 利 斯 市 的 大 约 100 个 讲话 者 选择 
了 20 个 讲话 者 ( 即 1.1A 版 ) ， 采 用 了 相关 联 的 单个 数字 部 分 ， 其 中 包含 了 在 一 个 
范围 内 改变 的 车 内 噪声 复杂 事件 /条 件 下 的 讲话 。 


11.3 SHREDS 


在 本 节 中 ， 提 出 了 一 种 新 颖 的 方法 ， 使 用 非 语音 段 中 包含 的 信息 ， 来 有 效 地 佑 
计 语 音 中 包含 的 随时 间 变 化 的 背景 噪声 。 作 为 我 们 讨论 的 初步 知识 ， 首 先 来 看 增加 
增益 倒 谱系 数 对 对 数 谱系 数 所 造成 的 影响 。 从 倒 谱 的 基础 看 ， 它 是 通过 对 数 频谱 的 
离散 余弦 变换 (DCT) 方式 获得 的 ， 获 得 的 每 阶 对 数 倒 频 谱系 数 都 代表 了 频率 的 对 
数 频 谱 包 络 线 的 变化 ( 即 频 率 )"”。 例 如 ， 较 低 阶 的 倒 谱 系数 用 来 表征 对 数 频谱 
包 络 中 缓慢 变化 的 成 分 ， 第 0 阶 倒 频 谱系 数 代 表 在 一 帧 上 对 数 频谱 的 一 个 DC 分 量 
( 即 能 量 ) 。 因 此 ， 对 每 阶 倒 谱 系数 施加 权重 ， 可 以 产生 一 个 原来 的 倒 频 谱 在 包 络 
频率 沿 对 数 谱 轴 的 变 分 。 

假设 一 个 对 数 倒 频 谱 的 系数 矢量 x 包括 了 第 0 ~ (N-1) 个 系数 。 添 加 一 个 增 
益 矢量 g 可 以 获得 倒 频 谱 和 天 量 的 一 个 变 分 如 下 : 
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x-x-4g (11. 1) 

如 果 仅 仅 对 第 0 个 系数 施加 增益 ， 如 g = [52,0,0, =, 0], MAME 

到 的 变 分 对 数 频谱 系数 将 具有 与 原始 对 数 频 谱 不 同 的 能 量 水 平 ， 这 可 以 通过 倒 

频谱 系数 DCT 的 逆 来 获得 。 图 11. 1a 表示 变 分 的 对 数 谱 ， 是 通过 对 第 0 个 倒 

频谱 系数 加 权 而 生成 的 。 纯 实 线 表 示 原 始 的 对 数 频谱 系数 ， 带 有 空 圈 的 实 线 表 

明 对 第 0 个 倒 谱系 数 乘 以 加 权 +g 和 — e 所 得 的 对 数 频 谱 。 我 们 可 以 看 到 ， 两 

个 变 分 具有 不 同 的 能 量 水 平 ， 但 同时 与 原来 的 系数 保持 相同 的 频谱 包 络 线形 

状 。 图 11. 1b 及 图 11. 1e 给 出 了 将 权重 仅 施 加 到 的 第 一 和 第 二 的 倒 频 谱系 数 时 

所 产生 的 变 分 。 图 11. 1b 中 的 变 分 其 包 络 线 是 平滑 变化 的 ， 而 图 11. 1c 中 的 变 
分 变化 相对 更 快 。 

















第 零 个 倒 谱系 数 权重 





2 4 6 8 10 12 14 16 18 20 22 





2 4 6 8 10 12 14 16 18 20 22 





2 4 6 8 10 12 14 16 18 20 22 
HERE (频率 ) 
C 


图 11.1 对 第 零 个 a) 、 第 一 个 b) 和 第 二 个 ec) 倒 谱系 数 施 
加 权重 生成 的 对 数 频谱 系数 的 变 分 举例 











因此 我 们 认为 ， 可 能 在 倒 谱 域 中 ， 对 原始 模型 施加 权重 的 组 合 可 能 会 产生 各 种 
模型 。 在 我 们 提出 的 方法 中 ， 假 设 : 中 基础 噪声 模型 可 从 语音 流 的 “安静 ”期 间 
(也 就 是 没有 语音 ) 获得 ; @ 在 语音 期 间 所 包括 的 目标 随时 间 变 化 噪声 ， 将 反应 佑 
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计 的 基础 模型 的 变 分 。 通 过 选择 性 地 对 倒 频 域 中 基础 模型 的 均值 矢量 中 的 每 个 分 量 
施加 权重 ， 可 以 生成 变 分 的 模型 。 在 这 里 ， 我 们 提出 了 一 种 新 的 算法 来 生成 如 下 的 
变 分 噪声 模型 集合 : 








som fiit 
一 个 基础 噪声 模型 从 输入 语音 的 安静 片段 中 得 到 ， 一 般 存在 于 发 声 的 开始 和 结 
束 部 分 。 该 模型 被 估计 为 倒 谱 域 的 高 斯 概率 分 布 函 数 (u, 0?) 。 































第 2 步 一 一 变 分 分 量 决定 
在 方差 矢量 o? 中 选择 最 大 分 量 了 (v, n, e, vy ， 并 命名 为 变 分 分 量 ， 可 
认为 是 高 阶 可 变 分 量 ， 并 按 阶 的 大 小 排序 依次 为 
Qu, CERE (11.2) 
(0000) (0+00) (0-00) 
8.5 
8 
75 Pus 
7 
6.5 





5 10 15 20 
(0-04) 


5 10 15 20 


(+000) 





图 11.2 由 所 建议 的 模型 组 合 方法 产生 的 谱 域 变 分 模型 的 平均 参数 [每 个 图 中 的 4 个 数字 
符号 表示 对 选择 的 4 个 变 分 分 量 所 施加 的 扰动 因素 的 组 合 ,例如 ( -a、0 或 +a) | 








ML TA 











LS EUH 6 
一 个 均值 矢量 的 变 分 ， 是 通过 选择 性 地 施加 扰动 因子 f 给 确定 的 倒 频 谱系 数 
v, ^v, 的 变 分 分 量 而 生成 的 ， 即 
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-~ _ fM; (1435). TE ts tay 5 vy} 
dE P; 其 他 
其 中 , f =-a, OM+a, a 是 一 个 小 的 正 值 ， 可 以 试探 性 地 确定 。 所 得 到 的 
MAIER (A = (M, 07) } 和 包括 总 共有 3" 个 产生 的 变 分 模型 ， 这 是 了 变 分 分 量 与 3 
类 型 的 增益 组 合 的 结果 。 
在 这 项 研究 中 ， 我 们 为 模型 组 合 方法 采用 了 4 个 变 分 分 量 。 图 11. 2 所 示 为 由 
所 提出 的 模型 组 合算 法 得 到 的 几 种 有 代表 性 的 变 分 噪声 模型 ( 即 在 对 数 谱 域 中 的 
平均 参数 ) ， 给 出 了 不 同类 型 的 谱 模式 ， 谱 模式 是 使 用 一 个 基础 模型 ， 通 过 对 所 选 
择 的 变 分 倒 谱 系数 分 量 施加 权重 的 组 合生 成 的 ， 这 个 基础 模型 在 各 图 中 以 虚线 表 
示 。 在 这 里 ， 从 式 (10.2) 选择 方差 的 4 个 系数 后 ， 施 加 一 个 三 阶 的 扰动 因素 
(例如 ，-a、0 或 +a)。 该 图 清楚 地 给 出 了 在 左上 角 原 来 的 基础 模型 [例如 ，(0， 
0, 0, 0) ] 施加 扰动 的 效果 。 


(11.3) 


























11.4 采用 变 分 模型 组 合 的 基于 PCGMM 特征 补偿 


在 本 节 中 ， 为 解决 随时 间 变 化 的 背景 噪声 的 语音 识别 ,采用 本 章 所 提出 的 变 分 
模型 组 合 方法 ， 给 出 了 基于 并 行 结合 的 混合 高 斯 模型 (PCGMM) 的 特征 补偿 算 
ik". fg PCGMM 方法 中 ， 噪 声 破 坏 的 语音 模型 的 参数 ， 是 用 干净 的 语音 和 噪声 
模型 ， 通 过 模型 结合 过 程 来 获得 的 。 在 倒 谱 域 中 ， 在 附加 的 噪声 环境 下 ， 假 设 一 个 
干净 语音 模型 的 平均 参数 的 恒定 偏 置 变换 ， 即 

May Tua t, (11.4) 
式 中 u, Fle, ,一 一 对 噪声 损坏 的 语音 的 y 和 清楚 语音 x 的 GMM 第 上 个 分 量 的 平 
HRE, 

一 旦 获得 了 干净 语音 模式 和 相应 的 噪声 损坏 的 语音 模型 的 平均 参数 ， 偏 置 项 xr， 
即 可 使 用 式 (11.4) 进行 估计 。 

在 随时 间 变 化 的 噪声 环境 下 ， 利 用 多 个 数目 的 环境 模型 来 自 适 应 地 补偿 输入 特 
^E, 参考 文献 [10] 认为 是 有 效 的 。 在 多 模型 方法 中 ， 每 一 个 可 能 环境 的 连续 后 
验 概 率 ， 都 有 针对 所 传人 的 噪声 语音 进行 估计 。 假 设 在 一 个 4 的 间隔 ， 所 输入 的 嘲 
杂 语 音 特 征 矢量 为 Y= [y i Ya 7S n] ， 那 么 在 所 有 模型 中 一 个 特定 环 
境 GMM 6G, 的 后 验 概率 可 以 写 为 


























P(G)p(Y, |G)p(y,|G,) 
Y. POOR. |G)pCy, | G) 
其 中 p(Y ,1 6G) =) pOl G) Mp) 是 每 个 环境 i 的 先 验 概率 ， 表 示 
为 一 个 GMM。 根据 式 (11.5), 在 帧 :的 清洁 特征 可 以 重建 为 ,从 如 下 一 组 5 重 环 
境 中 获得 的 补偿 条 件 的 加 权 组 合 : 





p(G;|Y,) = (11.5) 
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E K 
X, MMSE = Y, 一 Yr, |Y) Y rapi Gy) (11.6) 
pal k=l 


恢复 输出 























图 11.3 使 用 所 提出 的 变 分 模型 组 合 的 PCGMM 方法 的 原理 框图 














式 中 7, 4 一 一 对 第 个 高 斯 分 量 的 第 。e 个 环境 模式 的 一 个 恒定 偏 置 项 ; 
p (kl G,, y) 环境 C. 的 后 验 概率 。 

在 这 项 研究 中 ， 由 所 建议 的 变 分 模型 组 合 方法 获得 的 变 分 噪声 模型 ， 用 来 生成 
环境 模型 | G,| ， 使 用 干净 语音 CMM 和 所 得 到 的 变 分 噪声 模型 ， 通 过 模式 组 合 过 
程 对 这 个 环境 模型 进行 估计 。 这 项 研究 中 ， 对 所 有 获得 的 噪声 模型 ， 设 置 一 个 统一 
的 先 验 概率 。 图 11. 3 展示 了 使 用 所 建议 的 新 变 分 模型 组 合 方法 基于 PCGMM 的 特 
征 补偿 的 结果 框图 。 




















11.5 实验 结果 


我 们 选择 了 CU 移动 资料 中 的 连贯 单个 数字 部 分 ， 作 为 性 能 评估 的 测试 数 
据 。 进 行 的 实验 与 Aurora2 评估 框架 是 相同 的 。 它 的 任务 包括 了 11 个 字 的 
连贯 英文 数字 。 每 个 单词 由 使 用 16 个 状态 ， 每 个 状态 3 种 混合 的 连续 密度 
HMM 来 表示 。 除 了 数字 外 ， 还 使 用 了 两 个 安静 模式 ( 即 正 常 的 安静 和 短暂 的 
停顿 ) 。 

实验 中 应 用 了 由 欧洲 电信 标准 协会 (ETS) 建议 的 特征 提取 算法 '"1。 为 了 实 
施 模式 组 合 方便 起 见 ， 第 0 个 倒 频谱 系数 被 用 来 代替 对 数 能 量 。 提 取 第 13 阶 倒 频 
谱 后 ， 在 解码 过 程 中 包含 了 第 1 阶 和 第 2 阶 时 间 导 数 (总 共 39 维特 征 矢量 ) 。 使 用 
包括 在 Aurora2 中 的 8840 干净 语音 训练 样本 ， 进 行 HMM 参数 的 估计， 在 CU 移动 
语料库 上 选 定 的 测试 集 上 对 性 能 进行 了 评 佑 。 测 试 集 包括 由 10 个 不 同 的 讲话 者 
(59315 女 ) 在 现实 生活 车 内 条 件 下 ， 所 说 的 464 个 话语 (长 度 为 50min) ， 这 些 都 
是 在 明尼苏达 州 的 明 尼 阿 波 利 斯 收集 的 避 ; 。 数 据 的 采样 频率 为 g8kHz， 反 映 了 一 个 
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平均 9. 50dB 的 信 噪 比 ， 这 是 使 用 NIST 语音 质量 保证 软件 获得 的 "| 。 

在 语音 识别 方面 的 环境 鲁 棒 性 方面 ， 将 基准 系统 的 性 能 (无 补偿 ) 与 现 有 的 
几 种 预 处 理 算法 进行 了 比较 。 选 定 谱 减 法 (SS) 和 倒 谱 均值 归 一 化 (CMN) 为 通 
用 的 算法 。 这 些 代 表 了 针对 附加 噪声 抑制 和 去 除 信 道 失 真 最 常用 的 技术 。 对 谱 减 
法 5 ， 减 除 因子 和 层 因子 分 别 设 置 为 4.0 和 0.2， 使 用 最 小 统计 方法 在 时 间 延 迟 约 
为 2530ms 的 情况 下 对 背景 噪声 进行 估计 。 对 倒 谱 均值 归 一 化 ， 从 每 一 帧 中 减 去 对 
所 有 当前 输入 语音 的 倒 频 谱 平 均值 。 由 ETSI 开发 的 AFE (高 级 前 端 ) 算法 ， 作 为 
最 先进 的 方法 之 一 ， 也 进行 了 评价 ， 它 其 中 包含 一 个 迭代 的 维 纳 滤波 器 和 倒 频 谱 的 
直方 图 均衡 化 站。 我 们 也 评估 了 另 一 个 特征 补偿 方法 ，VTS (矢量 泰勒 级 数 ) 算 
法 ， 为 性 能 比较 ,使 用 EM 算法 为 每 个 测试 发 声 对 嗜 杂 的 语音 GMM 进行 了 自 适 应 
fh 7 。 表 11. 1 给 出 了 基准 系统 和 现 有 算法 的 性 能 。 

表 11.1 基准 系统 和 现 有 的 方法 对 CU 移动 语料库 的 性 能 ( 字 错 误 率 % ) 








基准 70. 02 
SS + CMN 39. 90 
ETSI AFE 48.31 

VTS 31. 45 





接 下 来 ， 通 过 显示 改变 扰动 因子 所 引起 的 性 能 变化 ， 我 们 讨论 了 如 何 决定 所 建 
议 的 变 分 模型 组 合 的 扰动 因子 。 使 用 变 分 模型 组 合 方法 的 PCGMM 方法 ， 对 重建 的 
语音 进行 了 语音 识别 来 评估 其 性 能 。 为 了 观察 在 各 种 类 型 的 背景 噪声 条 件 下 的 性 
能 ， 使 用 了 Aurora2 测 斌 数据库 。 在 这 里 ， 我 们 采用 地 铁 、 串 音 、 汽 车 和 展览 品 
声 条 件 ， 这 些 已 列 人 了 Aurroa2 个 数据 库 的 “集合 A”。 图 11.4 呈现 了 性 能 与 扰动 
因子 的 依赖 关系 。 在 4 种 背景 噪声 条 件 下 ， 绘 制 了 WER ( 字 错 误 率 ) 性 能 与 a 
对 扰动 因子 所 的 函数 关系 ，a 的 区 间 从 0 到 0.1。 在 这 里 ，WER 是 每 个 背景 噪声 所 
有 SNR 条 件 下 ( 即 0dB、5dB、10dB 、15dB 和 20dB) 的 一 个 平均 值 ， 其 中 图 中 的 
实心 圆圈 表示 4 种 噪声 条 件 下 的 平均 性 能 。 以 a = 0 的 情况 下 的 性 能 表示 基本 
PCGMM 的 方法 ， 只 采用 一 个 基础 模型 ， 没 有 采样 变 分 模型 组 合 ， 这 是 所 建议 的 
VMC- PCGMM 性 能 进行 比较 的 目标 系统 。 需 要 注意 的 是 ， 每 个 图 显示 旦 四 状 , 在 a 
为 0.05 ~0.07 时 形成 了 一 个 局 部 的 最 低 值 。 这 些 结果 表明 ， 确 定 一 个 合适 的 a 值 ， 
使 用 建议 的 变 分 噪声 模型 组 合 方法 能 够 实现 一 个 有 效 的 性 能 。CU 移动 语料库 的 性 
能 比较 见 表 11.2。 





























表 11.2 CU 移动 语料库 的 性 能 比较 (WER ,2% ) 
PCGMM 30. 53 
VMC- PCGMM 24. 18 
相对 改善 量 (20. 80) 
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扰动 因子 a 
图 11.4 VMC-PCGMM 在 Aurora2 数据 库 中 扰动 因素 变化 时 的 识别 性 能 (WER ,% ) 
33 
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图 11.5 VMC-PCGMM 在 CU 移动 语料库 中 扰动 因素 变化 时 的 识别 性 能 (WER% ) 











图 11.5 给 出 了 在 CU 移动 语料库 中 扰动 因素 变化 时 ，VMC- PCOGMM 对 重建 语 
音 的 识别 性 能 。 这 些 结果 里 ， 扰 动因 子 f 在 a=0.06 时 WER 最低， 这 与 Aurora2 
数据 库 是 类 似 的 ( 见 图 11.4) 。 结 果 表 明 ， 在 对 现实 生活 中 的 车 内 环境 应 用 所 提出 
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的 VMC 方法 时 ,使 用 Aurora2 数据 库 ， 我 们 的 实验 能 够 指导 如 何 确定 扰动 因素 。 
表 11.2 表明， 针对 CU 移动 语料库 ， 与 基本 的 PCGMM 比较 ， 所 建议 的 VMC- 
PCGMM (a= 0.06) 的 性 能 在 WER 方面 有 20. 80% 的 相对 改善 。 这 些 结果 都 说 
明 ， 与 基本 PCGMM 方法 以 及 在 现实 生活 的 车 内 条 件 的 其 他 常规 方法 相 比 ，VMC- 
PCGMM 能 够 实现 显著 的 改善 。 

















11.6 小 结 


在 这 项 研究 中 ， 提 出 了 一 种 新 的 模型 组 合 方法 ， 在 时 间 变 化 的 背景 噪声 条 件 
下 ， 例 如 车 内 环境 来 提高 语音 识别 。 在 所 提出 的 方法 中 ， 使 用 无 语音 片段 对 一 个 基 
础 噪声 模型 进行 了 佑 计 ， 对 基础 模型 变 分 所 决定 的 变 分 倒 谱 分 量 选择 性 地 施加 扰动 
因素 ， 来 生成 变 噪声 模型 。 使 用 了 模型 组 合 方法 来 生成 用 于 PCGMM 算法 的 多 个 环 
境 类 型 。 实 验 结 果 表 明 ， 在 随时 间 变 化 的 背景 噪声 情况 下 ， 该 方法 能 够 更 有 效 地 提 
高 语音 识别 性 能 。 针 对 CU 移动 现实 生活 中 的 车 内 语料库 ， 与 单 模型 PCGMM 的 方 
法 相 比 ， 在 WER 方面 我 们 获得 了 20. 8096 的 相对 改善 。 这 证 明了 变 分 噪声 模型 组 
合 产生 的 噪声 空间 ， 能 够 有 效 解决 背景 噪声 随时 间 变 化 的 问题 。 
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第 12 章 fe se V ip BOR A AI DE DE tr 
组 来 进行 双 通 道 语音 增强 
Jongsung Yoon, Kihyeon Kim, Jounghoon Beh, Robert H. Baran 和 Hanseok Ko 


摘要 : 使 用 感知 自 适 应 噪声 抑制 ， 我 们 研究 了 双 通 道 语音 增强 方法 ， 从 而 提高 
了 免 提 通信 在 汽车 环境 中 的 语音 感知 质量 。 特 别 是 ， 可 以 感知 的 自 适 应 噪声 抑制 
器 ， 它 是 由 基于 梅 尔 感性 滤波 器 组 、 一 个 自 适 应 滤波 器 和 一 个 语音 改善 块 组 成 的 ， 
用 于 评估 通过 抑制 非 语 音 组 件 所 需 的 语音 包 络 。 实 验 结果 表明 ， 与 单独 的 传递 函数 
广义 旁 办 消除 器 结构 相 比 ， 该 算法 使 NR 改善 了 8.06 dB, m PESQ 得 分 提高 
了 0.70。 

关键 词 : 辅助 驾驶 ; 双 通 道 语音 增强 ， 免 提 通 信 ; 车 载 语音 技术 


12.1 简介 








最 近 ， 随 着 免 提 通信 系统 需求 的 增加 ， 尤 其 是 在 汽车 内 部 ， 基 于 多 送 话 器 输入 
的 语音 增强 已 越 来 越 重要 。 在 本 童 中 ， 提 出 了 一 个 有 效 的 多 声 道 语音 增强 算法 ， 从 
而 提高 了 语音 的 质量 ， 同 时 最 大 限度 地 减少 了 指向 干扰 和 环境 噪声 。 

传统 的 波束 形成 方法 ， 如 线性 约束 最 小 方差 (LCMV) A A A IN R A 
(GSC) ， 利 用 不 同 的 传感器 噪声 信号 之 间 的 相关 性 ， 可 以 减少 来 自 不 希望 指向 来 的 
干扰 中 。 然 而 ， 当 自 适应 滤波 器 必须 足够 长 来 有 效 地 抑制 噪声 时 ， 不 可 避免 地 造 
成 波束 形成 器 计算 负担 较 高 。 因 此 ， 在 汽车 通信 装置 系统 中 采用 该 方法 是 不 可 
取 的 。 

为 了 解决 这 个 问题 ， 我 们 提出 了 一 种 新 的 算法 ， 该 算法 基于 频谱 幅 值 的 修改 ， 
并 且 使 用 广义 旁 锥 消除 需 的 结构 。 这 种 设想 的 算法 对 主 信 号 、 固 定 波 束 形成 器 的 输 
出 、 品 声 基准 信号 和 阻塞 矩阵 的 输出 应 用 了 听觉 上 的 滤波 器 组 ， 来 评估 噪声 分 量 的 
波谱 样本 。 接 着 ,这 些 样 本 人 馈送 到 用 于 频谱 修改 的 增益 滤波 器 ， 以 得 到 所 需 信 号 的 
最 佳 频谱 包 络 线 。 这 种 结构 比 传统 的 波束 形成 方法 更 有 独特 的 优势 ， 包 括 改进 的 感 
知 语音 质量 、 对 静态 环境 噪声 的 鲁 棒 性 和 较 高 的 计算 效率 。 我 们 所 设想 的 算法 基于 
双 麦 克 风 阵列 结构 ， 为 了 著 得 更 高 的 性 能 ， 我 们 考虑 使 用 传统 的 自 适应 噪声 抵消 ， 
即 在 短 时 傅 里 叶 变 换 域 中 运行 的 最 佳 组 合 
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12.2 ” 双 通 道 语 育 增强 


12.2.1 传递 函数 广义 旁 罗 消除 (TFGSC) 


GSC 的 基本 结构 包括 一 个 固定 的 波束 形成 器 (FBF), MÆRE (BM) 和 一 个 
噪声 消除 滤波 器 (NC), FBF 在 方向 上 形成 了 一 道 波束 ， 以 便 音响 信号 从 扬声器 传 
递 时 ， 传 递 干扰 噪声 被 抑制 。 接 着 ，BM 阻塞 了 所 需 的 信号 ， 而 且 形 成 了 噪声 参考 
信号 。NC 生成 与 干扰 相关 的 包含 在 FBF 输出 的 分 量 副 本 。 通 过 从 FBF 的 输出 中 减 
去 副本 ， 可 以 得 到 一 个 增强 的 语音 信和 号。 传统 上 ， 这 些 过 程 通 常 描述 为 采样 数据 表 
示 。 参 考 文献 [3] 最 近 已 经 提出 了 宽带 GSC 的 表达 式 ， 是 基于 空间 脉冲 响应 
(RIR) 的 一 般 传递 函数 (TF) 。 与 对 RIR 简单 的 衰减 和 延 时 假设 相 比 ， 基 于 TF 的 
BM 在 它 的 视野 方向 上 形成 一 个 尖锐 的 空 值 ， 使 得 所 希望 的 语音 泄漏 信号 更 有 利 地 
衰减 。 理 想 情况 下 ，BM 将 转换 一 个 纯 噪 声 参考 输入 到 NC。 此 外 ,在 FBF 中 使 用 
TF， 能 够 在 一 个 高 度 回响 室内 所 需 的 信号 不 失真 。Gannot 等 人 在 传递 函数 比 
(TFR) 的 基础 上 提出 了 这 个 概念 ， 并 建造 了 自 适应 GSC， 叫 做 TFGSC'”。 图 12.1 
展示 了 频 域 中 双 通 道 TFGSC 的 示意 图 和 信号 传播 模型 。 


Ni 








图 12.1 TFGSC 7R} 


E 
E 
T 


图 
Te PEE H PRE SCN 
H=? (12.1) 
通过 FBF， 主 信号 由 下 式 给 出 : | 


Z 
Y-WZ-rv|gp k [1 H'] MEE pice N,] (12.2) 


FBF 在 它 的 视野 方向 上 ， 形 成 一 道 波束 来 传递 语音 ， 并 输出 一 个 不 失真 的 语音 
和 噪声 分 量 ， 包 括 指 向 上 的 干扰 和 和 车载 环境 噪声 分 量 组 成 的 两 个 信号 。 接 下 来 ， 





158 车 载 系统 和 安全 的 数字 信号 处 理 





BM 形成 了 一 个 空 的 波束 来 阻止 语音 ， 并 产生 噪声 参考 信和 号 : 


Zi 
U-B'Z- [-H 1] [4 |= cm e (12.3) 
产生 的 噪声 参考 信号 进入 NC 模块 ， 而 且 构建 了 一 个 滤波 器 C; ， 通 过 一 般 的 
维 纳 滤波 器 方法 ， 来 评估 和 消除 FBF 输出 中 的 噪声 分 量 吕 ， 
^ E[UY]" Puy 








*  E[UU'] By SEM) 
a CU (12.5) 

归 一 化 最 小 均 方 (NLMS) 算法 实现 自 适应 噪声 抵消 5 . 
CC ay Ste, Hag (12.6) 





Pa (k, t) 
其 中 的 时 间 一 频率 指数 返回 ， 来 实现 在 短 时 傅 里 叶 变换 域 的 更 新 。 式 (12.6) F, 
输入 传感器 信号 的 功率 估计 来 控制 适应 项 : 

















Pa (k,t) = aP(k,t-1) + (1-a) 25 | Z1? (12.7) 
其 中 a 是 一 个 遗忘 因子 。 接 着 ， 所 得 的 系统 的 输出 由 下 式 给 出 : 
Y D eX ee Xu d vq] (12.8) 


当 自 适应 滤波 器 系数 的 数目 大 到 足以 覆盖 一 个 混 响 室 中 的 信号 路 径 时 ，TFGCSC 
会 出 现 计 算 负 担 。 使 用 FET 运用 保存 /添加 方法 执行 线性 卷 积 。 它 必须 高 效率 计算 
自 适 应 噪声 抑制 滤波 器 ， 并 且 保 持 TFGSC 优势 。 
12.2.2 ”基于 感知 的 自 适 应 噪声 消除 系统 (PANS) TFGSC 

图 12. 2 所 示 为 基于 TFGSC 的 PANS 结构 。PANS 由 三 块 组 成 : 一 个 固定 波束 
形成 器 (FBF), BH3EXBIE (BM) 和 听觉 自 适应 噪声 抑制 (PANS) 。 它 是 用 来 评估 
所 需 的 语音 信号 的 频谱 包 络 (SE). Kl 12.3 所 示 为 一 个 听觉 滤波 器 组 ， 如 梅 尔 滤 
波 器 或 等 效 和 矩形 带宽 表征 的 PANS ^" 。 滤 波 器 组 由 带 通 滤波 器 组 成 ,来 反映 听觉 
掩蔽 的 效果 。 因 此 ， 我 们 提供 了 具体 的 人 类 听觉 系统 的 频率 分 辨 率 。 图 12. 2 给 出 
了 滤波 器 组 输出 的 主 信号 7 的 听觉 SE 和 它 的 参考 噪声 U。 然 后 ， 一 个 自 适应 滤波 器 
用 输入 的 0 了 来 评估 主 信号 的 噪声 SE N。 给 定 评估 六 后 ， 执行 频谱 变形 以 获得 所 需 
的 语音 ， 如 














S=F,,|( [1-a£]) Y (12.9) 
Jtr EMER apo Sol, REELI. 由 于 SE 样本 只 出 现在 
滤波 器 组 的 中 心 频率 ， 函 数 F,, 用 于 频 域 中 对 功率 比 样本 2 插值 。 对 于 听觉 滤波 器 
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图 12.2 基于 TFGSC 的 PANS 示意 图 
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图 12.3 一 个 ERB 滤波 器 组 的 频率 响应 中 


和 频谱 变形 ， 所 提出 的 结构 已 经 改进 了 语音 增强 的 感知 质量 ， 同 时 ， 实 现 了 自 适 应 
滤波 器 中 系数 数量 最 小 化 。 此 外 ， 该 系统 确保 在 车 载 环境 噪声 中 的 鲁 棒 性 ， 这 是 基 





于 自 适 应 滤波 需 能 够 提供 所 有 噪声 分 量 的 SE 评估 。 

然而 ， 这 种 方法 不 能 避免 由 于 内 捅 处 理 和 不 使 用 任何 相位 信息 的 自 适 应 功率 估 
计 所 带 来 的 语音 失真 。 尤 其 是 ， 在 低频 范围 内 时 语音 能 量 集中 ， 语 音 失 真 变 得 
显著 。 
为 了 克服 这 种 功能 退化 ， 我 们 考虑 了 PANS 与 传统 的 自 适应 噪声 消除 (ANC) 
的 组 合 。 在 低频 范围 内 ,运用 ANC 滤波 器 产生 一 个 精确 的 指向 干扰 功率 评估 。 然 
后 ， 频 谱 变形 使 用 了 噪声 佑 计 ， 来 无 失真 地 加 强 语音 。 然 而 ， 在 高 频 范 围 内 ， 
PANS 仍然 使 用 了 听觉 SE 来 应 用 频谱 变形 。 
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12.2.3 带 有 自 适 应 噪声 消除 (ANC) 的 PANS APG 


图 12. 4 所 示 为 基于 TFGSC 的 PANS 结构 图 。 在 低频 率 范 围 内 ， 通 过 常规 的 
ANC 滤波 器 来 评估 噪声 。 在 高 频 范 围 内 ， 通 过 PANS 滤波 器 评 佑 噪声， 而且 修 改 频 
谱 可 以 增强 语音 。 由 于 有 声 语 音 的 能 量 集中 在 低频 范围 内 ， 为 了 防止 语音 失真 ， 指 
向 干扰 的 频谱 功率 评估 用 于 每 个 频率 窗口 ， 而 不 是 使 用 滤波 器 组 。 高 频率 范围 内 使 
用 PANS， 以 便 能 够 保留 语音 的 感知 质量 ， 而 且 相 比 传统 的 ANC 方法 ， 也 减轻 了 计 
FAA far o 
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图 12.4 PANS 和 ANC 组 合 示 意图 


12.3 实验 











要 产生 双 声 道 语音 信号 和 非 平 稳 信 号 干扰 ， 需要 测量 车 厢 内 空间 脉冲 响应 
(RIR) 的 混 响 时 间 ，7。 =250ms。 所 需 的 语音 信号 离 送 话 器 阵列 50cm 远 、 沿 宽 边 
方向 (90°) 建 模 ， 非 平稳 干扰 源 为 75cm、 沿 45° 方 向 建 模 。 该 阵列 位 于 有 10cm 
孔径 的 语音 源 前 面 。 图 12. 5 描述 了 生成 信号 的 实验 装置 。 

每 个 RIR 与 单 通 道 干 净 语 音信 号 卷 积 ， 产 生 一 个 双 通 道 的 语音 信号 ， 与 干扰 
的 人 声 进行 卷 积 ， 产 生 一 个 8kHz 采样 率 的 双 通 道 非 平稳 干扰 噪声 。 布 朗 噪 声 作 为 
车 载 环境 噪声 加 入 。 接 着 ， 干 扰 加 上 环境 噪声 与 语音 信号 合并 ， 以 模拟 带 有 干扰 和 
噪声 比 (SINR) 在 -5 -20dB 之 间 的 各 种 信号 。 在 实验 中 ， 由 韩国 的 数字 串 形成 
语音 信号 ， 并 且 使 用 任意 的 韩语 形成 非 稳定 干扰 产生 的 噪声 。 

为 了 评估 噪声 抑制 和 增强 语音 信和 号 的 感知 性 ， 分 别 测量 了 对 数 域 和 语音 的 感知 
评估 (PESQ) 中 的 降 噪 (NR) 。 表 12. 1 展示 了 推荐 的 双 通 道 语音 增强 系统 ， 其 中 
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干扰 噪声 源 


图 12.5 HHF RIR 测量 的 送 话 器 阵列 的 孔径 和 信和 号 源 的 定位 























“PANS” 和 “PANS + ANC” 分 别 表 示 只 使 用 PANS 和 只 使 用 PANS 与 ANS， 来 评 
佑 所 需 的 频谱 包 络 。 提 出 的 算法 所 得 到 的 发 现 与 基于 传递 函数 的 GSC (TFGSC) 的 
方法 进行 了 比较 3 。 
见 表 12.1， 提 出 的 PANS 5j PANS + ANC 相 比 于 TFGSC， 显 示 出 了 更 优良 的 性 
能 。 虽然 在 不 利 噪声 环境 中 ，PANS 显示 了 与 TFGSC 类 似 的 语音 质量 ,通过 与 
ANC 组 合 可 以 解决 该 问题 。 
表 12.1 所 建议 算法 的 实验 结果 



































输入 的 SINR/dB -5 0 5 10 平均 值 
NR/dB TFGSC 13. 74 13. 74 13. 73 13. 70 13. 73 
PANS 22.45 22. 43 22.23 21.72 22.21 
ANC + PANS 22. 00 21.94 21. 79 21.43 21. 79 
PESQ TFGSC 2.02 2.44 2. 64 3.02 2.53 
PANS 2. 05 2.51 3.04 3.45 2. 16 
ANC + PANS 2. 16 3.12 3.41 3.62 3.23 


12.4 小 结 


我 们 提出 了 一 个 双 通 道 语音 增强 方法 ， 通 过 用 感性 的 自 适 应 噪声 抑制 ， 提 高 了 
感性 的 汽车 内 室 免 提 通 信 的 语音 质量 。 该 方法 使 用 了 一 个 基于 自 适 应 滤波 器 的 听觉 
滤波 需 来 评 佑 噪声 SE， 并 且 与 ANC 相 结合 。 此 方法 能 够 使 自 适 应 滤波 器 系数 的 数 
目 减 少 ， 并 改善 语音 的 感知 质量 。 听 党 SE 的 使 用 表明 在 车 载 环 境 噪 声 中 能 够 确保 
和 鲁 棒 的 噪声 抑制 ， 而 无 需 对 所 得 到 的 实验 结果 进行 额外 的 后 处 理 。 
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摘要 : 汽车 上 的 免 提 语音 电话 和 语音 识别 受到 附加 噪声 和 混 响 的 影响 。 基 于 分 
析 合 成 闭环 系统 ， 围 绕 着 一 个 多 路 径 通 用 淮 铬 抵消 器 (GSC) ， 我 们 提出 一 个 迭代 
盲 室内 脉冲 响应 (RIR) 估计 算法 。 在 建议 方案 中 添加 一 个 滤波 器 ， 在 实际 情况 下 
可 以 实现 最 佳 的 语音 增强 。 该 算法 使 用 了 模拟 数据 和 AVICAR 数据 库 的 实时 语音 记 
录 来 进行 了 测试 。 

关键 词 : 免 提 通信 ; 车 内 语音 识别 ; 多 路 径 通 用 穷 准 消除 器 (GSC); FAK 
冲 响应 (RIR) 


13.1 简介 


近年 来 ， 虽然 许多 系统 都 使 用 多 送 话 器 阵列 来 进行 语音 增强 "和 和 鲁 棒 的 
语音 识别 23 ， 但 是 很 少 有 研究 根据 源 语音 信号 、 室 内 脉冲 响应 (RIR) 和 噪声 
的 假设 统计 模型 ， 提 出 多 送 话 器 语音 信号 处 理 的 理论 基础 。 其 中 一 个 已 发 表 的 
考虑 了 语音 增强 理论 基础 的 系统 是 Balan 和 Rosca 提出 的 中 , KH] 3x ds 
MMSE 谱 频 幅度 估计 可 被 分 解 成 一 个 充分 统计 量 ， 随 后 是 一 个 单一 的 送 话 器 后 
置 滤波 器 。 

作为 一 个 简单 的 延伸 和 ， 如 果 我 们 知道 了 RIR， 那 么 语音 信号 的 最 优 估计 使 用 
简单 的 两 步 法 就 可 以 实现 ， 然 而 它 实际 上 是 不 容易 满足 已 知 的 RIR 假设 的 。 在 本 
章 中 ， 我 们 在 未 知 的 RIR 情况 下 ， 实 施 了 充分 统计 。 

如 果 我 们 知道 信号 源 ， 可 以 基于 一 个 声学 回声 消除 方案 自 适 应 地 估计 RIR'” 。 
因为 更 正确 的 波束 形成 的 输出 更 接近 原始 源 信号 ， 因 此 我 们 能 够 使 用 波束 形成 的 输 
出 作为 一 个 参考 信号 来 估计 RIR"*i。 在 本 章 中 ， 我 们 建议 使 用 一 个 延迟 一 求 和 的 波 
束 形成 器 (DSB) ， 为 RIR 的 一 个 初始 约束 评估 提供 所 需要 的 信息 ， 然 后 根据 不 断 
变化 的 RIR 的 估计 ， 使 用 一 个 多 路 径 的 GSC 来 更 新 迭代 。 良 好 的 RIR 估计 使 多 路 
径 GSC 更 准确 ， 这 再 一 次 保证 了 更 好 的 RIR 估计 。 这 表明 ， 一 个 对 室内 脉冲 啊 应 
的 稀 玲 性 合理 的 约束 上 ， 该 算法 收敛 到 一 个 有 用 的 近似 RIR。 尽 管 我 们 可 能 无 法 获 
得 完美 的 RIR 识别 ， 收 敛 的 RIR 仍然 足以 来 计算 多 路 径 固定 波束 形成 器 (FBF) 
的 系数 矢量 ， 这 已 经 胜 过 不 成 熟 的 DSB。 通 过 利用 收敛 的 RIR， 我 们 能 够 减少 多 路 
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径 GSC 共同 的 实际 问题 ， 即 它 消 除 目 标 信号 的 倾向 是 由 于 源 自 波束 形成 器 的 混 响 
言 号 不 可 分 辩 。 
为 了 在 一 个 容易 处 理 的 方式 下 清晰 地 看 出 这 种 情况 ， 我 们 首先 展示 了 该 方 
一 个 简化 版 本 的 收 僵 。 一 个 简单 的 模拟 实验 表明 ， 该 方法 能 够 在 FBF 的 输 
出 中 实现 足够 的 盲 去 卷 积 ， 然 后 我 们 利用 真实 志 界 的 移动 车 辆 记录 来 评估 改进 
的 算法 。 


13.2 推荐 的 方法 


13.2.1 多 路 径 GSC 


多 路 径 GSC 被 制定 为 一 个 优化 问题 ， 如 式 (13.1) 所 示 ， 这 是 在 众 所 周 
知 的 多 路 径 环境 下 GSC 的 一 个 广义 版 本 ， 由 RIR 编码 到 一 个 约束 和 矩阵 C 
表示 : 

argminE ( w y (n) y (n)*w] 受制 于 Cw =f (13.1) 

Hep, $8) -w'y(n) 是 在 当前 时 间 的 一 个 估计 的 源 信号 , f=[1 0 … 0]7， 

y(n) 是 通过 传声器 阵列 测 得 的 嗜 杂 信号 矢量 ,滤波 器 系数 的 数组 是 w= [w wy 

wy, | 对 于 所 有 的 入 ei 进行 估计 的 工 形 状 的 逆 RIR 2E 7X ait BJ fet BS, 
并 且 

y(n) 2 [x "Gy (y UL) | (13.2) 

x, ()s[x(-G-Dn)y(G-G-Dn,-0D-7.—— (15,3) 

y(n- (i-1)n,)-L+1] 
其 中 , i=1, 2, =, NSE HAE 4d、 采 样 频率 和 声音 速度 c 带 入 表示 


视野 方向 的 0=arcsin( - 55). ii (5) 中 引入 站 是 为 了 补偿 送 话 器 信道 间 的 


下 迟 ， 这 样 来 自 所 有 送 话 器 通道 的 信号 可 以 对 齐 。 然 而 ，m 可 能 不 是 一 个 整数 ， 
此 我 们 可 能 需要 处 理 非 整数 延迟 的 补偿 。 

为 了 得 到 多 路 径 CSC， 我 们 需要 对 (1) 中 的 一 部 分 约束 进行 计算 。 约 束 部 分 
具有 以 下 卷 积 形式 : 





Wi 1 

w 0 
Cw= [C, aoe (13. 4) 

Wy, 0 


— 


其 中 , 1, (RIR 的 长 度 ) +L-1 乘 以 L 和 矩阵 C 通过 响应 六 = [y,(0) y, (1) … y 
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(4, -1) ] 来 构建 : 


[ h, (0) Doo 0 
h, (1) h; (0) 
h, (1) ^7. 0 
C,- h (h-1) i — 7 h, (0) (13.5) 
0 h; (1, -1) : h; (1) 
0 ses e h, (1, 21) 





其 中 ,1=1 ,2 ,…,N。C 是 一 个 典型 的 线性 卷 积 矩 阵 ， 它 具有 Toeplitz 结构 。 式 
(13.5) 的 解 是 信道 去 卷 积 滤波 器 w^, ERREUR GSC 中 ，(1) 的 解 可 以 通 
过 在 一 个 阻塞 矩阵 上 w 的 投影 计算 出 ， 它 可 以 构造 成 多 声 道 卷 积 和 矩阵 C 的 零 空间 。 
现在 ， 识 别 FBF 系数 矢量 的 问题 可 以 被 视 为 一 般 多 通道 的 反 卷 积 问题 ， 因 此 它 
不 需要 直接 作为 式 (13.1) 的 最 小 二 乘法 解 来 计算 ; 相反 ， 如 果 需 要 的 话 ， 我 们 
可 以 应 用 任何 种 类 的 多 通道 解 卷 积 算法 "I 。 阻 塞 矩 阵 也 可 以 通过 使 用 在 参考 文献 
[5] 中 的 回声 取消 方案 来 构造 ， 因 为 理想 的 固定 波束 形成 器 的 输出 是 去 卷 积 和 波 
束 形 成 的 源 信号 。 昌 然 我 们 可 以 为 FBF 应 用 任何 种 类 的 多 通道 解 去 卷 积 方案 ， 但 
是 在 后 面 的 章节 中 ， 我 们 提出 了 一 个 盲 多 通道 RIR 识别 算法 ， 事 实 上 是 基于 多 路 
径 GSC 的 独特 结构 。 


13.2.2 基于 多 路 径 GSC 的 RIR 迭代 盲 估计 


13.2.2.1 问题 的 公式 
优化 过 程 的 信道 响应 估计 如 下 : 
































s(n) * (A (n) *w,(n) +: + 


h, (n) = argmin 











h(n) (13.6) 
hy(n) *wy(n)) h(n) -s(n) * h;(n) | 

式 中 * 代 表 一 个 卷 积 ， 同 时 (7) 能 够 用 下 列 矢 量 元 来 表示 : 
h, = argmin | Ch; - |? = (CC) C'h; (13.7) 


其 中 CG=C 是 使 用 RIR 的 波束 形成 的 输出 中 得 到 的 卷 积 矩 阵 。 理 想 情 况 下 ， 如 果 
C =7， 换 句 话 说， 如 果 RIR 的 FBF 生成 完美 的 卷 积 输出 ， 那 么 我 们 可 以 得 到 真实 
的 RIR。 与 式 (13.7) 一 起 ， 除 了 RIR 中 每 个 主导 反射 的 时 间 标 记 外 ， 施 加 强制 
幅 值 大 小 为 零 值 的 约束 条 件 ， 来 得 到 估计 RIR。 这 个 约束 可 以 解释 成 RIR BUE 
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13.2.2.2 算法 

下 面 一 步 一 步 地 介绍 所 提出 的 算法 ， 基 于 以 下 假设 ; 知道 发 生 在 脉冲 响应 万 
中 ， 占 主导 地 位 的 回声 路 径 的 时 间 标 记 7;,，， 其 中 i=1 ,…,N， 而 主导 地 位 的 回声 
路 径 数 目 d=1 ,2 ,…,D。 在 这 里 ,我 们 重点 考虑 RIR 的 估计 和 反 卷 积 ， 因 为 在 反 
卷 积 之 后 的 噪声 抑制 是 直接 的 。 主 导 地 位 回声 路 径 的 时 间 标 记 的 估计 将 在 
13. 2. 2. 3 节 中 讨论 。 

1) 初始 化 估计 的 脉冲 响应 。 

2) h(n) =1 +66 CH=?) te +66 (nf as 

3) 利用 式 (13.6) 进行 多 路 径 GSC， 并 用 式 (13.7) 的 解 更 新 有 (7,,)。 对 
HAB n, 强制 h(n) =0。 

4) FEAR 2 直到 幅度 的 反应 没有 更 多 显著 的 变化 。 

如 果 按 照 第 一 次 迭代 ， 将 在 时 间 标 记 处 获得 占 主导 地 位 的 回声 路 径 的 第 一 次 更 
新 ， 即 

















Cria) mh Ga) = Hr) enu) mee Ay Gn). (03.8) 


在 只 有 一 个 占 主 导 地 位 的 反射 ， 幅 度 s 时 的 情况 下 ， 可 以 通过 举例 来 说 明 式 

(13.8) 。 然 后 ， 在 时 刻 为 +; ,频道 的 去 卷 积 滤 波 器 系数 ， 变 得 靠近 - =。， 如 果 反 卷 
积 滤 波 的 时 间 足 够 长 ， 可 以 满足 下 面 的 条 件 : 

((1 +28(t-r,,)) * (1 -28(t-r,,)))(r) =0 (13.9) 

在 这 种 情况 下 ，RIR EXMA, E r ,去 卷 积 的 输出 变 为 h,(r,,) e, 形成 的 波 


东 输 出 与 此 反 卷 积 输出 变 为 讨 (h (rs) + e iG) cem eh Gu)» EER 


了 当 n=0 和 n= Sb, 对 其 他 每 个 mn, h(n) =0。 现在， 通过 应 用 式 (13.7) 对 
波 道 i 进行 通道 评 佑 ， 得 到 了 式 (13.8), ME h; (r) 可 作为 一 个 对 e 的 更 新 ， 
因此 有 





Ep+1 =h,(r;1) -ACn (ra) dene. t hi(rii) 2 +hy(ri1)) (13. 10) 
第 次 迭代 ， 可 以 表示 为 如 下 形式 . 
Ep+1 I a) ex 0G) re SR. (ri) af 
hig (iad thy (ia) ) (13. 11) 
(Fe) ahr) rT) H haC) + 


hair je t hy( ri ) ) ) 
通过 归纳 法 得 
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Ez =h, ru) =h,(r;1) =i (rin) Lex (13. 12) 
hii ria) thier iad thw Gia) 
这 可 以 解释 如 下 : WRA, (nu) Ke X, 它 将 会 被 更 新 ， 直 到 C) 不 再 变化 。 
在 RIR 早期 部 分 ， 回 声 路 径 是 罕见 的 ， 通 常 (h (ri1)， cns har). hara), 
ey A.Cra) hir) s 因此 在 式 (13.12) 中 , hy (ri) =h; (r) ZEX 
情况 下 的 背景 噪声 ,和 (7 ) chu) 仍然 存在 ， 因 为 我 们 可 以 很 容易 地 假设 噪 
FREE RAS, Bese (13.12) 中 得 到 的 测量 结果 求 平 均值 。 

这 一 主导 反射 情景 可 以 扩展 到 多 重 反射 的 情况 下 ， 因 为 最 主导 的 反射 路 径 去 卷 
耻 后 ， 下 一 个 主导 路 径 可 去 卷 积 。 请 注意 ， 通 过 为 主导 地 位 的 回声 路 径 指 定 所 有 的 
时 间 标记 ， 可 以 隐 式 地 进行 这 种 时 序 的 去 卷 积 。 但 是 ， 还 要 注意 ， 由 于 实际 问题 ， 
例如 低 通 滤波 处 理 (由 于 信号 的 采样 ， 和 /或 在 房间 的 墙壁 上 与 频率 相关 的 反射 系 
ŽO, ， 响 应 可 能 不 包含 完美 的 脉冲 。 

这 种 缺陷 可 能 会 在 信道 估计 时 产生 一 些 错误 ， 因 为 稀疏 RIR 的 假设 ,将 无 法 
保持 其 精确 度 。 特 别 是 ， 在 使 用 这 个 方案 的 情况 下 ， 具 有 类 似 的 到 达 方向 (DOA) 
的 回声 路 径 可 能 无 法 准确 地 估计 。 在 大 多 数 情况 下 ， 对 带 有 DOA 的 源 信号 进行 信 
道 估 计 的 限制 ， 不 同 于 对 那些 占 主导 地 位 的 回 波 ， 不 是 难以 满足 作为 由 其 他 的 信道 
估计 算法 的 限制 ， 并 且 在 实践 中 ,使 用 该 算法 ， 即 使 重 秋 的 不 完善 和 负 值 回 波 似乎 
都 不 损害 信道 估计 的 结果 。 

RIR 带 有 一 个 七 优势 反射 路 径 ， 包 括 一 个 负 分 量 和 一 个 重 秋 的 组 件 ， 图 13. 1 
给 出 了 双 通 道 测量 的 收敛 结 
h,-[1000 0.500 0.4 0 0.05 0.3 0 0 -0.1 0.09 0 0 0.04]” 

h,-[100000 050 0.45 0 0 0.3 -0.1 0 0 0.09 0.04 0]? 
(13. 13) 

S—TH= TPR A ERO SCA AE A, EWE, up DUE f F— 
些 早 期 占 主 导 地 位 回声 路 径 的 时 间 标 记 (不 是 全 部 )， 我 们 能 够 估算 信道 响应 ， 并 
执行 去 卷 积 。 

13.2.2.3 反射 时 间 标 记 估计 算法 

在 本 节 中 ， 我 们 提出 一 个 启发 式 的 方法 来 估计 占 主导 地 位 的 反射 时 间 标 记 。 该 
算法 如 下 : 

1) 首先 ， 我 们 选择 DSB 作为 第 一 个 FBF， 并 进行 归 一 化 的 最 小 二 乘法 算法 ， 
利用 DSB 的 输出 来 估计 RIR FIR 补偿 系数 。 

2) 选择 时 间 标 记 ， 其 中 估计 的 RIR WE PE AI, HE T 
射 的 显著 性 水 平 。 

3) 执行 13. 2.2.2 节 中 提出 的 算法 。 
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6 8 10 12 14 16 18 20 ^ 2 4 6 8 10 12 14 16 18 20 
时 间 ( 采 样 ) 时 间 ( 采 样 ) 

b) c) 

图 13.1 FBF 输 出 ( 蓝 色 虚线 是 DSB 输出 ， 黑 色 虚 线 是 更 新 的 FBF 输出 : 红线 
是 迭代 20 次 后 的 最 终 的 FBF 输出 。 更 新 的 FBF 输出 产生 更 多 脉冲 状 的 输出 ， 它 
是 通过 消除 指定 的 回声 路 径 的 影响 产生 的 ， 换 句 话 说， 是 更 多 地 去 卷 积 输出 ， 见 
图 13.1a) 、 估 计 的 通道 h，( 见 图 13. 1b) 和 估计 的 信道 h，( 红 色 点 显示 20 o 
代 后 的 收敛 的 信道 响应 ， 蓝 色 虚 线 为 更 新 的 响应 ， 黑 线 是 原来 的 RIR。 指 定 的 信 
道 响应 几乎 被 完美 地 识别 ， 见 图 13. 1c) 


4) 重复 上 面 的 第 2 步 和 第 3 步 ， 直 到 选 定 的 时 间 标 记 没有 显著 增加 。 

图 13. 2 给 出 了 收敛 的 结果 ， 将 通道 响应 与 高 斯 白 品 声 源 进行 卷 积 ， 且 闵 值 设 
为 0. 08 ， 即 可 得 到 两 个 信道 的 模拟 输出 。 注 意 ， 大 部 分 高 于 阔 值 的 显著 反射 点 可 
以 估计 得 非常 正确 。 
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0.2 0.2 /\ 
0 0 
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20 
IY Ta) (采样 ) 时 间 ( 采 样 ) 
a) b) 


图 13.2 估计 的 通道 六 〈 见 图 13.2a) 和 估计 的 信道 六 〈 红 点 表明 在 20 次 迭代 后 的 收敛 信道 
响应 ， 黑 线 为 原始 的 RIR。 高 于 预定 义 阔 值 的 指定 信道 响应 几乎 被 正确 识别 ， 见 图 13. 2b) 


13.3 真实 的 汽车 数据 试验 


在 本 节 中 ， 我 们 测试 所 提出 的 算法 ， 它 是 利用 汽车 中 测量 的 真实 多 声 道 信 号 源 
进行 的 。 在 运行 算法 之 前 ， 通 道 间 延 迟 通 过 使 用 GCC- PHAT 得 到 估计 ， 来 明确 
WË DSB, Kl 13. 3 显示 了 利用 AVICAR 数据 库 一 个 单位 的 语音 ， 这 两 个 信道 识别 
的 结果 ， 除 了 直接 的 路 径 以 外 ， 并 没有 明显 的 反射 被 估计 。 
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图 13.3 ”估计 的 信道 h，( 见 图 13.3a) 和 估计 的 信道 h，( 见 图 13. 3b) 
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0 20 40 60 80 100 120 140 
时 间 ( 采 样 ) 
b) 


图 13.3 估计 的 信道 h，( 见 图 13.3a) 和 估计 的 信道 h，( 见 图 13.3b) (4X) 


对 这 个 结果 可 能 的 解释 是 ， 车 里 面 的 空间 太 小 ， 以 至 于 没有 稀 朴 可 分 的 、 特 别 
的 回声 路 径 。 然 而 ， 因 为 这 个 结果 也 意味 着 在 原始 信号 里 不 存在 显著 相关 的 反射 ， 
这 些 原 始 信号 伴随 着 波束 形成 的 输出 ， 这 些 输出 信号 在 DSB 中 是 利用 直接 路 径 信 
息 的 ， 当 我 们 使 用 只 带 有 用 作 FBF 的 DSB 的 传统 GSC 结构 时 ， 可 避免 信号 消除 的 
问题 。 使 用 传统 的 GSC， 接 着 进行 MMSE 谱 幅 度 估计 ， 参 考 文献 [12] 已 经 报道 
了 最 佳 的 信号 增强 和 孤立 数字 识别 结 




















13.4 小 结 


在 本 章 中 ， 我们 提出 了 一 个 基于 GSC 的 多 路 径 育 信 道 识别 方法 ， 它 的 插入 
可 以 真正 蔡 代 最 佳 语 音 增 强 的 大 量 统计 。 人 为 产生 的 稀 蔗 信道 模拟 表明 ， 在 信 
道 响应 高 于 预定 的 靖 值 时 ， 提 出 的 算法 能 够 收 代 ， 且 对 在 原始 的 信道 响应 中 的 
所 有 分 量 有 良好 估计 。 测 量 汽 车 所 得 的 真实 数据 的 信道 估计 试验 表明 不 存在 独 
寺 显 著 的 反射 ， 并 支持 传统 的 GSC， 此 GSC 跟随 一 个 后 滤波 器 ， 可 以 产生 最 
佳 语 音 估计 。 
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第 14 HEER WS gh pe pt 
交通 路 口 的 参考 视图 


Jien Kato 和 Yu Wang 


摘要 : 在 本 章 ， 我 们 解决 在 交通 路 口 进行 辅助 驾驶 这 个 问题 ， 所 采取 的 方法 是 
提供 给 驾驶 员额 外 的 视觉 信息 来 扩大 他 们 的 视野 。 我 们 的 目标 是 生成 一 个 虚拟 视点 
图 像 流 ， 它 在 车 辆 的 一 个 较 高 位 置 ， 使 用 的 图 像 来 自 多 个 路 边 摄像 机 。 我 们 的 方法 
基于 视图 变形 ， 但 通过 整合 鲁 棒 的 基础 矩阵 估 值 和 稀 路 的 关键 点 相 匹 配 ， 来 使 之 有 
所 扩展 。 这 使 得 一 些 此 前 依靠 手工 操作 来 完成 的 任务 得 以 自动 完成 。 

关键 字 : 驱动 员 驾 驶 视野 ; BHM, 基于 图 像 的 泻 染 (IBR); RABI 
助 ; 参考 视图 ; 汽车 盲点 


14.1 简介 








由 于 交通 密度 的 增加 ， 驾 驶 员 开 车 变 得 越 来 越 紧 张 。 在 十 字 路 口 ， 情 况 更 加 严 
重 。 根 据 2007 年 来 自 日 本 警察 厅 的 年 度 报告 ， 日 本 全 部 交通 事故 的 46. 3% 发 生 在 
路 口 附 近 。 此 外 ， 非 常 大 比例 的 事故 发 生 原 因 ， 要 么 是 因为 车 辆 的 盲区 ， 要么 是 由 
于 在 路 口 的 交通 密度 ,使 得 对 象 之 间 被 遮挡 。 这 些 因 素 限 制 了 驾驶 员 的 视野 。 因 
此 ， 驾 驶 员 对 周围 环境 和 即将 到 来 的 状态 进行 监测 是 更 具 挑 战 性 的 。 

针对 路 口 协助 ，Benmimnoun 等 人 提出 了 一 个 系统 "1 ， 利 用 车 辆 间 通 信 来 更 新 
从 机 载 GPS 收 到 的 位 置 测量 值 ， 并 通过 路 边 的 车 辆 通信 将 警告 信息 传送 给 所 有 
车 辆 。 

他 们 使 用 了 一 个 精心 设计 的 人 机 接口 ， 在 某 种 程度 上 ， 这 个 系统 可 以 通过 提供 
警告 信号 给 驾驶 员 来 改善 交通 安全 ， 然 而 驾驶 员 接收 的 最 终 信 息 是 危险 的 警告 。 这 
些 信 息 是 有 用 的 ， 但 是 与 驾驶 员 使 用 他 们 的 视力 得 到 信息 相 比 ， 它 更 加 困难 。 同 
时 ， 它 的 处 理 有 时 是 困难 和 尴 众 的 。 在 另 一 个 关于 应 用 图 像 处 理 的 工程 中 ， 
Ichihara“ A? KE ATT) NaviView 进行 了 扩展 ， 以 适应 十 字 路 口 的 环境 ， 但 是 一 个 
简单 的 仿 射 转换 只 能 从 路 边 摄像 头 给 驾驶 员 提 供 视图 的 镜面 图 像 。 虽 然 这 个 系统 可 
以 将 驾驶 员 的 视野 扩展 到 下 一 个 十 字 路 口 ， 但 它 的 功能 仍然 是 有 限 的 ， 而 且 获 取 的 
信息 很 难处 理 。 

我 们 认为 视觉 信息 是 直观 的 ， 它 能 增强 驾驶 员 处 理 周围 情 况 的 能 力 。 值 得 注意 
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的 是 ， 由 于 汽车 的 结构 和 对 象 泪 挡 的 原因 ， 一 个 驾驶 员 的 视野 常常 被 限制 。 拓 宽 视 
野 能 使 该 方法 更 有 效 。 鉴 于 此 ， 我 们 提出 一 个 产生 参考 视图 的 方法 〈 见 图 14.1), 
从 一 个 更 高 的 地 方 跟随 车 辆 的 运动 。 其 结果 是 ， 视 岁 不 仅 扩展 了 四 驶 员 的 视野 ， 也 
提供 了 和 车辆 本 身 的 信息 。 这 使 汽车 对 即将 到 来 的 阻塞 反应 更 鲁 棒 。 因 为 这 个 观察 点 
是 与 汽车 的 方向 一 致 的 ， 那 么 它 与 驾驶 员 所 看 到 的 信息 有 直接 关系 。 同 时 ， 它 很 自 
然 地 为 驾驶 员 处 理 这 样 的 视野 来 作为 参考 信息 。 

.2 


oD 


图 14.1 参考 视图 


为 了 生成 这 样 的 视野 ， 我 们 计划 在 十 字 路 口 使 用 路 边 的 摄像 头 。 如 今 ， 路 边 摄 
像 机 被 安装 在 交通 事故 频 发 的 地 方 ， 尤 其 是 十 字 路 口 。 使 用 来 自 这 些 摄像 机 的 图 像 
数据 将 是 很 划算 的 。 

我 们 选择 基于 图 像 的 泻 染 (IBR) 方法 来 实现 我 们 的 目标 ， 因 为 它 可 以 提供 一 
个 现实 的 新 颖 观点 。 由 于 造型 新 颖 的 观点 有 所 保留 ， 需 要 采用 基于 IBR 方法 的 隐 
式 几 何 体 ， 如 视图 变形 。 这 些 方法 的 准确 性 在 过 去 的 几 十 年 里 有 所 增加 。 但 是 
由 于 其 过 度 依赖 手工 操作 ， 且 需要 有 预先 的 场景 几何 知识 ， 因 此 他 们 没有 被 广泛 地 
应 用 在 真实 的 应 用 里 。 在 这 项 工作 中 ,我们 通过 整合 鲁 棒 的 基础 矩阵 佑 值 与 特征 的 
匹配 ， 使 视图 变形 在 实际 应 用 中 得 以 延伸 和 应 用 。 我 们 的 想法 只 需要 轻微 地 调整 现 
有 的 相机 设置 ， 就 能 使 它 适合 实用 。 

















14.2 方法 





我 们 假设 在 给 定 的 十 字 路 口 已 经 设置 了 很 多 相机 。 显 然 ， 更 多 的 相机 可 以 生成 
更 好 的 参考 视图 。 在 我 们 的 工作 中 ， 我们 使 用 6 个 定位 在 统一 高 度 的 摄像 机 来 进行 
评价 。 详 细 的 安排 布局 显示 在 图 14.2 (£) 中 。 在 技术 上 ， 我 们 的 方法 并 不 限制 
摄像 机 的 具体 位 置 。 这 样 一 个 对 称 的 设置 仅仅 是 因为 便于 解释 。 每 个 摄像 机 及 其 顺 
时 针 邻 近 的 相机 是 成 对 的 ， 表 示 为 Co 和 Cio XE n 是 对 的 数量 。 与 大 多 数 实际 情 
况 类 似 ， 相 机 事先 没有 校准 。 

我 们 的 机 载 系统 应 该 在 接近 十 字 路 口 时 ， 接 收 每 个 路 边 摄像 头 所 生成 的 图 像 
流 。 在 茶 个 方向 车 辆 最 靠近 相机 组 时 ,该 相机 组 即 被 选中 。 这 两 个 图 片 经 过 预 变 
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形 ， 使 他 们 的 图 像 平面 平行 而 不 改变 相机 的 光学 中 心 。 通 过 线性 位 置 内 持 和 两 个 预 
扭曲 图 像 的 颜色 ， 我 们 产生 了 一 个 新 的 视野 。 由 此 产生 的 图 像 是 平行 于 两 张 预 扭曲 
图 片 的 ， 同 时 保留 了 形状 。 远 景 视 图 的 位 置 是 由 车 辆 的 方向 和 两 个 选 定 的 相机 方向 
之 间 的 角度 决定 的 。 然 后 ， 图 像 再 次 扭曲 以 达到 与 主机 车 辆 方向 一 致 。 通 过 这 种 方 
式 ， 我 们 生成 一 个 虚拟 相机 视图 C,， 显 示 在 图 14. 2 中 。 经 过 基于 驾驶 员 交 互 的 缩 
放 阶 段 ， 系 统 的 最 终 输出 是 跟随 主 车 辆 运动 的 近似 图 。 

视图 变形 是 我 们 整个 方法 中 最 绝妙 的 地 方 。 它 可 以 通过 将 两 个 原始 相机 连 
接 在 一 起 从 任何 角度 生成 图 像 。 注 意 ， 原 始 方法 需要 事先 了 解 相 机 的 投影 矩阵 且 过 
度 依赖 手工 操作 。 我 们 的 团队 通过 整合 鲁 棒 的 基础 矩阵 估 值 和 稀 琉 的 关键 点 匹配 ， 
来 使 之 有 所 扩展 。 下 面 的 内 容 进 一 步 描 述 了 这 种 方法 。 

















到 14.2 ”实际 和 虚拟 摄像 头 








14.3 实际 和 虚拟 摄像 头 


正如 前 面 提 到 的 ， 路 边 摄像 头 的 具体 位 置 是 不 受 限制 的 。 我 们 做 出 这 个 前 提 ， 
是 因为 许多 现 有 的 十 字 路 口 路 边 摄像 头 并 不 是 为 我 们 的 目的 来 设置 的 。 因 此 可 能 没 
有 足够 的 数量 而 且 设置 也 可 能 不 适合 我 们 的 需要 。 添 加 一 个 或 两 个 摄像 头 或 调整 现 
有 的 设置 会 让 它 使 用 方便 。 同 时 ， 一 个 鲁 棒 的 方法 是 需要 以 直接 的 方式 来 结合 图 
像 。 此 外 ， 也 应 该 让 它 和 车 辆 的 运动 方向 对 齐 ， 通 过 主机 车 辆 运动 的 在 线 测量 来 确 
定 虚拟 摄像 机 的 位 置 和 方向 。 


14.3.1 估计 基础 矩阵 


对 于 相机 组 nw， 它 的 基本 和 窍 阵 F, 是 不 变 的 ， 只 需 计算 一 次 。 我 们 做 的 第 一 步 是 
通过 两 个 相机 C,, 和 C,, 取 出 两 个 图 像 攻 和， 并 使 他 们 之 间 建 立 通 信 。 因 为 A 和 
来 自 不 同 的 视点 ， 在 宽 基 线 中 这 样 的 特征 匹配 是 一 个 易于 出 错 的 任务 。 

为 了 实现 一 个 很 好 的 估 值 F,， 我 们 首先 使 用 SIFT 关键 点 检测 器 ”“ ， 从 每 个 图 
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像 中 选择 一 组 关键 点 。 我 们 选择 SIFT 关键 点 ， 是 因为 它 对 图 像 变换 是 鲁 棒 的 ， 同 
时 通过 描述 每 个 关键 点 之 间 的 关联 ， 可 以 很 容易 地 建立 潜在 的 通信 。 然 后 ， 我 们 通 
过 在 欧 几 里 得 距离 内 寻找 最 近 的 邻居 ， 来 匹配 图 像 对 之 间 的 关键 点 。 因 为 它 可 能 
然 包 含 许 多 匹配 的 异常 值 ， 我 们 改变 RANSAC5] 来 估计 已 。 在 每 个 RANSAC 循环 ， 
随机 选择 8 个 相应 的 对 ， 使 用 8 点 算法 来 估计 相关 的 基础 矩阵 '% 。 在 每 个 循环 中 
估计 基本 抢 阵 的 质量 ， 是 通过 内 围 层 数量 计数 进行 评估 的 。 一 个 匹配 视 为 内 围 层 ， 
存在 阔 值 下 的 投影 误差 。 对 每 一 相机 对 进行 RANSAC 的 多 次 迭代 ， 我 们 得 到 F B3 
一 致 结果 。 


14.3.2 虚拟 视点 


因为 我 们 的 目标 是 生成 一 个 动态 跟随 主机 车 辆 的 视图 ， 虚 拟 观点 的 方向 应 与 主 
机 车 辆 一 致 。 在 本 章 中 ,我 们 假设 主机 车 辆 的 在 线 方向 是 已 知 的 w，( 见 图 14.2 £ 
其 中 上 是 时 间 指 数 。 在 此 基础 上 ， 我 们 在 最 相近 o, 的 方向 提取 相机 对 Co 和 

， 并 计算 对 应 的 角度 we 和 wu 。 为 了 产生 虚拟 相机 C, 的 视图 ，* 和 相机 倾斜 度 y 
Du 14.2 右 图 ) 是 必要 的 。 当 通过 内 插 法 产生 中 间 平 行 视 图 时 ，s* 决定 着 变形 
率 ， 而 当 需 要 旋转 内 插图 像 来 与 主机 车 辆 的 方向 对 齐 时 ,倾斜 度 y 是 需要 的 。 

我 们 令 位 置 Co =0, C, =1, 在 y=(o -ww)/2 时 , 3 XE S 2,7 (0, to) 
即 可 计算 出 近似 的 so 


























14.4 生成 引用 视图 


本 节 将 介绍 我 们 生成 参考 视图 的 方法 。 在 每 一 个 时 间 步 中 ， 一 个 相机 组 被 选 
XE, 来 自 Cs AC, WABI. n 被 作为 源 图 像 。 我 们 的 方法 是 采用 视图 变形 的 一 个 
扩展 ”。 我 们 将 采用 一 个 特征 匹配 过 程 来 避免 手工 操作 。 我 们 的 方法 可 以 概括 为 
四 步 程序 ， 在 下 一 节 中 会 加 以 描述 。 


14. 4.1 特征 通信 


为 了 产生 一 个 变形 ， 两 个 源 图 像 之 间 的 每 个 像素 的 完整 通信 应 该 被 指定 。L 

M oe tnd ga er ES 
ee BU ACRE! 

在 我 们 的 工作 中 ， 也 必须 将 获得 的 通信 视图 合成 为 一 个 保留 原 有 形状 的 新 视 
图 。 为 了 保证 新 视图 的 质量 ， 足 够 数量 的 匹配 和 充足 分 布 的 图 像 是 必需 的 。 在 这 种 
情况 下 ， 又 遇 到 了 图 像 之 间 在 一 个 很 宽 的 基线 建立 通信 的 这 个 问题 。 将 出 现 基础 矩 
阵 中 的 差异 。 在 这 里 ， 洪 在 匹配 的 质量 是 更 重要 的 。 同 时 ， 针 对 这 些 匹 配 ， 也 需要 
额外 的 数量 和 分 布 。 

我 们 在 和 了 上 应 用 SIFT 探测 器 (和 Harris 角落 探测 器 "" ， 从 图 像 对 中 收集 
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回应 。 我 们 再 次 使 用 SIFT 关键 点 的 描述 符 来 建立 可 能 的 通信 ， 如 14. 3. 1 节 所 述 。 
对 于 每 个 角落 关键 点 ， 我 们 使 用 归 一 化 互相 关 准 则 来 找到 其 最 佳 匹配 中 。 我 们 使 
用 两 个 探测 品 的 原因 是 因为 他 们 有 不 同 的 属性 。 用 了 局 部 的 描述 ，SIFT 关键 点 在 
建立 高 可 信 度 的 通信 方面 是 很 有 效 的 。 在 SIFT 下 ,使 用 Harris 角落 关键 点 可 以 保 
证 足够 的 形状 相关 的 通信 和 能够 被 发 现 ， 然 后 我 们 收集 以 这 种 方式 生成 的 匹配 。 为 了 
消除 错误 的 匹配 ， 我 们 进一步 使 用 预先 计算 的 基本 和 矩阵， 通过 增强 Epipolar 约束 来 
删除 离 群 值 。 这 样 ， 我 们 获得 一 组 有 足够 高 可 信 的 通信 ， 这 些 通信 将 被 用 于 以 下 的 
视图 合成 过 程 。 


14.4.2 MHH 


为 了 产生 一 个 形状 保留 的 变形 ， 两 张 图 片 应 该 旋转 两 次 ， 来 对 齐 网 像 平 面 和 扫 
描 线 。 然 后 ， 经 扭曲 图 像 的 线性 插值 ， 可 能 会 随 着 两 个 摄像 头 沿线 连接 在 一 起 的 摄 
影 机 移动 产生 新 的 图 像 。 因 此 ， 在 每 个 时 间 步 中 ， 我 们 需要 在 QR I, 上 执行 射影 
AR H, IH, o 

我 们 假设 ROAR, (1-0, 1) 都 是 3 x3 和 矩阵。Ry 是 角度 0, 绕 轴线 纵深 为 
的 旋转 ， 使 两 图 像 平面 平行 ， 而 R, 对 应 一 个 仿 射 起 曲 使 扫描 线 对 齐 。 给 出 和 工 
AY SERRE, 4 个 矩阵 可 以 通过 选择 旋转 轴 d, 来 确定 。 

我 们 要 做 的 第 一 件 事 是 将 预先 计算 的 矩阵 通过 奇异 值 分 解 进行 因 式 分 解 ， 
ARF ALF 的 两 个 单位 特征 矢量 (极点 ) 矩阵 ， 分 别 为 e = lej, e, eS] 和 
e= [e e, á] 我们 遵循 参考 文献 [3] 推荐 的 选择 ， 并 选择 旋转 轴 d, = 
[-€$, €, 0]. 然后， 计算 一 个 矢量 [x, y, z]"=Fd,, HAR, = [-y, x, 
0]"。 沿 纵深 关于 4 的 旋转 角度 可 以 通过 下 式 计算 . 

B= Fawn [Et (14.1) 
通过 这 种 方式 ， 两 个 旋转 的 深度 得 以 确定 。 

下 面 的 深度 旋转 是 男 一 个 仿 射 扭曲 Rs 用 来 使 Epipolar 线 平行 。 在 第 一 个 旋转 
后 ,新 epipoles 成 为 [6 e^, OJ = Rie。 然 后 ， 旋 转 的 角度 和 由 和 可 通过 下 式 
计算 : 






































中 = -tan ^! (ere) (14.2) 
ERKE EDERRIK, JOR HAERE EAE à : 
0 
1 (14.3) 








确保 五 形式 为 
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0 0 0 
area | 0 1 (14. 4) 
01 0 
Fi— AREA EAE 1, E: 
0 0 0 
T-|0 -a -c (14. 5) 
0 0 b 








现在 ， 两 个 转换 可 以 通过 HH, -R, Rp AI H, = TR, R; 来 计算 。 

通过 已 获得 的 有 和 所， 我 们 对 两 个 图 像 ,和 进行 投影 变换 ， 来 获得 入 和 
7。 在 前 面 的 步骤} 中， 我 们 已 经 获得 了 一 组 特征 匹配 。 对 于 下 面 插值 步 邓 0， 我 们 也 
在 它们 的 坐标 上 执行 相同 的 投影 变换 。 
14.4.3 图像 插值 


已 经 表明 ， 在 视图 变形 中 中， 平行 图 片 的 线性 插值 是 另 一 个 平行 的 视图 。 预 
扭曲 之 后 ， 两 个 图 像 和 ,和 了 7 都 可 以 进行 这 样 的 插值 。 此 外 ， 在 坐标 变换 时 ， 其 匹配 
点 的 坐标 也 改变 了 。 原 始 图 像 的 通信 被 保存 并 作为 扭曲 图 像 的 新 坐标 。 然 后 我 们 使 
用 MATLAB 4 数据 网 格 方法 ， 来 确定 两 个 扭曲 图 像 间 非 关键 点 的 映射 分 布 。 该 方法 
可 以 从 一 组 通信 中 得 到 如 和 7 之 间 所 有 像素 的 光滑 曲面 ， 即 两 个 映射 函数 7: 1,1, 
和 Tl. 

通过 使 用 以 前 已 经 估计 的 变形 速率 * 和 现在 手头 的 这 两 个 映射 函数 ， 我 们 可 以 














通过 下 式 计算 出 每 个 像素 的 位 移 P, eh AA P el: 
W (po,s) 2 (175)po *sTo (po) (14. 6) 
W, (p, s) = (1-35) T, (pj) +s (pi) (14.7) 


然后 ， 我 们 通过 淡 入 淡出 过 程 来 整合 他 们 的 颜色 。 
14.4.4 ”后 向 折 又 和 缩放 


插值 后 ， 我 们 已 经 有 了 路 口 的 一 个 新 视角 。 这 样 的 视图 是 平行 于 用 两 个 摄像 头 
之 间 的 连 线 ， 接 着 执行 一 个 后 向 折 欠 ,使 其 与 主机 车 辆 的 方向 对 齐 。 这 种 扭曲 是 在 
深度 上 一 个 平面 进行 角度 为 y 的 旋转 。 后 向 折 共 后 ， 各 驶 员 可 能 需要 通过 缩放 来 得 
到 最 终 的 近似 图 像 ， 或 得 到 参考 视图 ， 在 经 过 十 字 路 口 他 /她 进行 决定 时 ， 将 使 用 
这 个 视图 。 








14.5 实验 结果 


我 们 的 评估 实验 使 用 了 比例 为 1: 38 的 一 个 交叉 模型 。 我 们 使 用 6 个 分 辨 率 为 
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640 x480 的 摄像 头 。 相 机 设置 如 图 14.2 左 图 所 示 。 使 用 遥控 玩具 汽车 和 自行 车 来 
获取 测试 图 像 序列 。 图 14. 3 (顶部 左边 和 中 间 ) 显示 了 一 组 分 别 从 左 、 右 摄像 机 
来 的 输入 样 例 。 
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图 14.3 实验 结果 





首先 ， 按 照 14. 3. 1 节 述 及 的 方式 进行 基本 和 矩阵 佑 值 。 预 扭曲 的 转换 有 和 五 
是 基于 FF 而 计算 得 来 的 。 我 们 取出 如 图 14.3 (左上 角 和 中 间 ) 所 示 的 一 对 相机 的 
图 像 作为 例子 。 通 过 联合 使 用 SIFT 和 Harris 探测 器 ， 每 个 图 像 选 择 了 大 约 2000 个 
关键 点 ， 分 布 都 是 归 一 化 的 ， 如 图 14.3 (Ab, 绿色, 红色: Harris; SIFT) 所 
示 。 使 用 14.4.1 节 的 匹配 准则 ， 然 后 按照 人 工 操作 的 细 化 步 又 ， 最 终 选 择 210 个 
特征 来 通信 。 然 后 我 们 在 两 个 图 像 间 (图 14. 3 左下 和 中 间 ) 以 及 匹配 点 的 坐标 进 
行 投影 转换 。 在 没有 自动 估计 车 辆 方向 的 情况 下 ， 我 们 通过 手动 分 配 变形 速率 * 和 
相机 倾角 y 来 产生 一 个 参考 图 像 。 由 此 产生 的 图 像 显示 在 图 14.3 ( 右 下 角 ) 中 。 
即使 产生 的 图 像 包 含 了 一 些 幻影 效应 ， 但 是 该 方法 工作 得 很 好 。 











14.6 小 结 


在 本 章 ， 我 们 提出 一 个 方法 来 生成 十 字 路 口 的 参考 视图 ,来 进行 安全 驾驶 畏 
助 。 我 们 使 用 鲁 棒 基本 矩 阵 佑 值 和 自动 特征 的 匹配 ,改进 了 视图 变形 方法 并 加 以 扩 
展 。 这 人 允许 我 们 在 没有 任何 预先 的 场景 几何 知识 和 过 多 的 手动 操作 的 前 提 下 实现 这 
个 目标 ， 而 这 两 点 在 原始 模型 中 是 关键 的 障碍 。 实 验 表明 ， 使 用 我 们 的 方法 ， 工 作 
效果 很 好 ， 即 使 针对 来 自 大 基线 的 不 同 的 视点 图 像 亦 如 此 。 

在 处 理 过 程 中 ， 因 为 原始 图 像 当 中 经 过 很 多 次 重新 取样 且 存 在 很 多 闭塞 ， 使 得 
新 视图 包含 一 些 幻 影 效 应 。 为 了 解决 这 些 影 响 ， 在 未 来 的 工作 中 ， 我 们 将 通过 引入 
平滑 优化 原始 输出 来 加 以 改善 。 
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第 15 音 具有 “环境 感知 ”功能 的 汽车 主动 
安全 性 和 辅助 驾驶 的 计算 机 视觉 系统 


Pinar Boyraz, Xuebo Yang 和 John H. L. Hansen 


摘要 : 信息 技术 的 最 新 发 展 和 移动 生活 方式 给 驾驶 中 的 驾驶 员 带 来 了 更 多 的 任 
务 。“ 娱 乐 ” 的 车 载 技 术 已 经 使 车 辆 向 更 多 的 智能 和 交互 式 设备 转型 ， 而 不 是 仅仅 
为 了 运输 方便 。 这 种 转变 有 几 个 优点 ， 如 路 线 导 航 、 实 时 交通 信息 以 及 在 驾驶 时 仍 
然 能 够 和 工作 或 人 保持 联系 等 。 然 而 ， 它 也 有 一 些 缺 点 ， 如 影响 驾驶 员 认 知 以 及 分 
散 驾 驶 员 注 意 力 。 因 此 ,利用 最 先进 的 车 载 技术 来 产生 用 以 监控 驾驶 员 状 态 的 系统 
是 至 关 重 要 的 ， 这 能 够 根据 实际 情况 自 适 应 地 减少 驾驶 员 的 工作 负载 。 在 对 驾驶 
员 环 境 进行 认 知 和 分 析 ， 以 及 对 驾驶 员 状 态 监控 来 说 ， 计 算 机 视觉 应 用 不 仅 提 供 
了 车 内 的 ( 即 驾 驶 员 的 头 和 眼睛 跟踪 ) ， 同 时 还 提供 了 车 外 的 ( 即 车 道 、 行 人 和 
车 辆 检测 和 跟踪 、 路 标识 别 ) 重要 信息 。 在 本 章 中 ,我 们 给 出 了 从 参考 文献 和 
先前 的 研究 中 所 提出 的 计算 机 视觉 应 用 在 CA-IVS 方面 的 广泛 应 用 ， 以 及 我 们 当 
前 的 研究 工作 。 

关键 词 : 计算 机 视觉 ; 环境 感知 ; 车 道 跟踪 


15.1 简介 














在 Fletcher 等 人 简短 的 报告 中 ， 他 们 提供 了 一 个 有 关 计 算 机 视觉 系统 应 
用 于 汽车 的 整体 总 结 。 他 们 确定 了 该 系统 在 针对 诸如 检测 驾驶 员 疲 劳 或 注意 力 
不 集中 、 发 现行 人 、 盲 点 检测 、 车 道 保持 、 交 通 标志 识别 和 人 类 因素 辅助 等 方 
面 是 有 用 的 。 这 些 应 用 建立 在 几 个 计算 机 视觉 系统 的 基础 上 ， 本 研究 对 此 也 进 
行 了 调查 和 展示 。 在 这 个 领域 已 经 取得 的 一 些 成 果 的 基础 上 ， 我 们 给 出 了 用 于 
车 载 应 用 的 计算 机 视觉 系统 工程 调查 ， 以 及 我 们 先前 和 当前 的 结果 。 本 研究 也 
提出 了 一 个 系统 实用 性 分 析 ， 用 机 电 一 体 化 集成 的 方法 将 所 有 的 系统 集成 在 一 
起 ,减少 了 最 终 车 载 计算 机 视觉 系统 的 复杂 性 和 成 本 ， 而 最 大 化 合成 设计 的 实 
用 因素 。 在 15. 2 节 ， 将 应 用 程序 分 成 两 个 主要 领域 : 驾驶 员 状 态 监 测 (车 
A) 和 车辆 周边 监控 (车 外 的 )。 这 些 系统 可 以 认为 是 在 汽车 中 “网 络 副 驾驶 
员 的 眼睛 ”， 它 们 在 车 辆 行驶 中 了 解 驾 驶 员 的 状况 以 及 环境 和 现状 〈 即 情况 / 
环境 感知 ) 。 接 下 来 ,在 15.3 节 , 分 析 了 所 有 系统 在 减少 事故 或 死亡 率 方面 的 
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预期 效用 。 在 确定 了 系统 的 效用 因素 后 ， 提 出 了 一 个 对 于 车 载 系统 的 机 电 一 体 
化 集成 的 例子 。 最 后 ,在 15.4 节 给 出 了 结论 ， 并 指出 在 这 一 领域 未 来 的 研究 
方向 。 


15.2 计算 机 视觉 系统 的 车 载 应 用 





在 本 节 中 ， 我 们 简单 总 结 了 一 些 不 同 的 CV 系统 ， 同 时 ， 对 我 们 在 一 些 领域 ， 
特别 是 UTDrive 研究 团队 的 进展 进行 汇报 。CV 系统 被 视 为 未 来 的 DAS 和 AVS 系统 
的 重要 组 成 部 分 ， 然 而 仍 有 必要 进一步 开发 实现 鲁 棒 的 车 载 操作 。 在 提供 每 个 系统 
的 细节 前 ， 这 里 给 出 车 载 CV 系统 的 一 些 需求 列表 ， 来 强调 在 这 一 领域 的 挑战 ， 其 
中 的 一 些 需求 要 解决 便 件 问题 并 开发 新 型 系统 : 

e 对 光照 变化 的 鲁 棒 性 ; 

e. 振动 和 高 加 速度 下 的 可 靠 性 ; 

。 低 / 高 温度 和 各 种 天 气 条 件 下 的 (特别 是 布线 和 安装 部 分 ) 耐用 性 ; 

e. 不 妨碍 驾驶 员 ，; 

e 紧凑 /可 移动 ; 

。 最 小 的 功率 和 计算 资源 使 用 。 

EXE, CV 系统 被 分 为 两 个 主要 群体 ， 即 关注 于 驾驶 员 的 以 及 关注 涵盖 全 部 
轰 驶 情况 的 环境 。 


15.2.1 眼睛 和 头 部 跟踪 


眼球 追踪 应 用 最 初 是 为 了 应 用 在 人 机 界面 开发 ， 来 创建 新 的 界面 方法 '， 或 
者 帮助 运动 障碍 的 人 们 1] 。 在 参考 文献 [4] 中 ， 作 者 给 出 了 大 量 关 于 眼 部 跟踪 应 
用 的 调查 。 对 于 特定 的 驾驶 员 监 控 系 统 中 的 眼 部 跟踪 程序 ， 其 应 用 范围 很 广 ， 包 
括 : 以 主动 照明 系统 ， 使 用 摄像 机 镜头 周围 同心 的 近 红外 光 的 亮 瞳 技术 1 ;使 用 
现成 的 网 络 摄 像 尖 和 可 见 光 的 系统 “和 头 戴 式 系 统 '""。 也 有 一 些 商 业 的 眼 动 跟踪 
应 用 正在 用 于 使 用 眼睛 注视 信息 的 研究 中 。 对 于 头 部 跟踪 ， 一 些 应 用 程序 使 用 
可 以 被 发 现 的 眼睛 的 位 置 、 皮 上 肤 颜色 或 图 像 的 运动 等 信息 '"""*i。 最 近 在 参考 文献 
[13] 中 给 出 了 一 个 监控 驾驶 员 警 惕 性 的 实时 系统 。 在 我 们 先前 的 研究 中 "中 ， 进 
化 计算 方法 用 于 获取 一 个 自 适应 的 眼 动 跟踪 系统 ， 并 在 光照 变化 时 保证 其 鲁 棒 性 。 
该 系统 应 用 的 是 基于 视网膜 恢复 反射 性 的 亮 瞳 技术 。 系 统 组 件 如 图 15. 1 所 示 ， 包 
括 一 个 CMOS 摄像 头 、 用 于 产生 亮 瞳 效果 的 NIR 发 光 二 极 管 的 同心 圆 环 以 及 用 来 
阻止 日 光 的 光 吸 收 滤波 器 。 

使 用 如 图 15.1 所 示 的 CV 系统 ， 有 眼睛 跟踪 系统 用 来 测量 瞳孔 区 域 ， 作 为 眼 瞪 
闭合 、 在 x - y 坐标 系统 中 眼睛 凝视 以 及 头 部 在 二 维 图 像 平 面 内 运动 的 一 个 间接 测 
量 。 该 系统 可 以 测量 这 3 个 重要 指标 来 反映 嗜睡 性 (B PERCLOS? 2 )、 注 意 力 
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水 平 以 及 驾驶 员 的 活动 。 





图 15.1 作为 驾驶 监控 系统 一 部 分 的 NIR 眼 动 跟踪 


15.2.2 ”情感 计算 : 情绪 识别 


情绪 识别 可 以 使 用 语音 和 视频 /图 像 等 多 种 模式 。 情 绪 识 别 任务 是 非常 难 实现 
的 。 据 报道 ， 即 使 是 人 类 的 程序 员 能 够 识别 到 的 通用 6 种 原型 情绪 ， 其 准确 性 也 只 
在 40% ~60% 之 间 ， 特 别 是 当 给 定 他 们 的 线索 只 有 单一 形态 ( 即 只 有 音频 或 只 
视觉 ) 5、 可见 光 !9 以 及 头盔 系统 1 时 。 

尽管 在 人 脸 识别 领域 已 经 做 了 大 量 的 工作 ， 但 是 情绪 识别 仍然 是 一 个 挑战 ， 因 
为 它 存在 一 个 时 间 维 度 ， 而 且 处 理 脸 部 非 刚性 运动 。 它 也 是 一 个 全 新 的 领域 ， 这 需 
要 大 量 的 工作 来 达到 成 熟 的 人 脸 识 别 技术 水 平 。 然 而 ， 人 们 一 直 努 力 开发 实时 的 和 
自动 的 ， 使 用 视频 形态 的 情绪 识别 单元 。Anderson 等 人 09 设计 了 一 个 全 自动 的 多 
级 系统 来 实时 识别 面部 表情 。 首 先 ， 脸 部 使 用 空间 比率 模板 跟踪 算法 来 定位 ， 随 后 
使 用 鲁 棒 梯度 的 实时 实现 来 确定 脸 部 的 光学 流 。 头 部 运动 被 平均 处 理 并 且 被 消除 。 
来 自 光 流 算法 的 运动 特征 使 用 SVM 进行 分 类 ， 分 为 非 表 达 或 6 种 基本 情绪 类 型 ， 
作为 大 多 数 被 使 用 的 工作 行动 单位 (AU), Shan 等 人 5 研究 了 新 的 子 空间 方法 来 
减少 面部 特征 表达 分 析 。Pantic 等 人 5 尤其 强调 情绪 序列 的 时 态 特 点 ， 并 使 用 侧 
脸 的 视频 来 详细 地 分 析 运 动 序列 。 然 而 ， 他 们 承认 ， 这 个 领域 可 能 需要 有 一 个 多 幅 
相机 系统 ， 来 处 理 不 同 角 度 的 脸 并 消 动 压 头 运动 。Pantic 等 人 "进行 了 最 先进 的 
自动 面部 表达 的 分 析 。 
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15.2.3 ”车辆 周边 监控 


在 这 个 类 别 中 ,包括 所 有 道路 对 象 的 检测 和 跟踪 系统 。 其 中 ， 最 有 前 途 的 系统 
是 车 道 检测 和 跟踪 系统 、 道 路 标志 识别 系统 和 车 辆 检测 跟踪 系统 以 及 行人 检测 与 跟 
踪 系 统 。 在 UTDrive 研究 项 目 中 ， 和 车 道 检 测 / 跟 踪 与 路 标识 别 系统 目前 正在 使 用 一 
个 环境 感知 框架 来 进行 开发 。 


15.2.4 道路 目标 检测 与 跟踪 


视频 流 ， 无 论 是 在 线 还 是 离线 处 理 ， 都 含有 丰富 的 与 道路 场景 相关 的 信息 内 
容 。 它 可 以 使 用 前 端 相 机 和 一 些 额 外 的 传 感 带 ， 如 雷达 ， 来 探测 和 跟踪 车 辆 、 车 道 
标记 以 及 行人 并 识别 路 标 标 志 。 

能 够 探测 、 识 别 和 跟 足 道路 目标 对 于 有 效 地 避免 碰撞 或 者 区 驶 员 辅 助 系统 
是 至 关 重 要 的 。 在 本 章 ， 提 出 我 们 目前 在 车 道 跟踪 以 及 路 标识 别 方面 的 研究 ， 
这 些 在 参考 文献 [22] 中 也 进行 了 报道 ,但 我 们 的 系统 添加 了 系统 效用 
分 析 。 


15.2.5 车 道 检测 和 跟踪 


大 量 文献 对 在 计算 机 视觉 领域 开发 车 道 跟踪 系统 进行 了 研究 。 这 些 系统 可 能 被 
用 于 与 驾驶 辅助 系统 相关 的 车 道 保持 和 车 道 更 换 中 。 在 参考 文献 [23] F, 全面 
比较 了 各 种 车 道 位 置 的 检测 与 跟踪 技术 。 由 此 比较 ， 可 以 清楚 地 看 到 大 多 数 车 道 跟 
踪 算 法 并 不 能 正确 执行 ， 因 此 无 法 应 用 于 实际 安全 相关 系统 中 ， 然 而 在 实现 鲁 棒 车 
道 跟踪 方面 却 出 现 了 一 些 令 人 鼓舞 的 进步 。 一 个 通用 的 车 道 跟踪 算法 具有 以 下 模 
块 : 道路 模型 、 特 征 提 取 以 及 后 处 理 (检验 ) 与 跟踪 。 道 路 模型 可 以 隐 式 地 结合 
在 参考 文献 [24] 中 所 使 用 的 一 些 特征 ， 如 起 始 位 置 、 方 向 和 灰 度 级 的 强度 等 。 
基于 模型 的 方法 比 基 于 特征 的 方法 更 鲁 棒 。 例 如 ， 在 参考 文献 [25] 中 ， 用 一 个 
B- snake 来 表示 道路 。 在 真实 的 交通 环境 中 ， 由 于 车 辆 移动 、 存 在 不 清楚 /退化 的 
标志 线 、 变 异 的 车 道 标志 、 照 明 变 化 和 天 气 条 件 等 ， 跟 踪 车 道 是 极其 困难 的 问题 。 
在 参考 文献 [26] 中 ， 粒 子 滤波 的 概率 框架 用 来 跟踪 从 一 组 假设 车 道中 所 选择 的 
车 道 。 一 个 基于 颜色 的 方案 被 用 在 参考 文献 [27] F, 形状 和 运动 线索 用 来 处 理 
交通 场景 中 的 运动 车 辆 。 
15.2.6 道路 信号 识别 

用 于 自动 道路 信号 识别 的 方法 可 分 为 3 组 : 基于 颜色 、 基 于 形状 和 基于 其 他 因 
素 。 在 实际 的 交通 场景 中 ， 使 用 一 个 摄像 头 在 行驶 中 的 车 辆 的 道路 标志 的 识别 ， 识 
别 的 挑战 有 : 光照 条 件 下 、 模 糊 效 果 、 特 征 扭曲 、 其 他 对 象 阻塞 和 传感器 的 局 限 
性 等 。 
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在 参考 文献 [28] 中 ， 提 出 了 一 个 使 用 滤波 器 组 的 非 线性 方案 ， 来 解决 在 进 / 
出 平面 变形 、 光 照 变化 、 背 景 噪声 和 部 分 遮挡 等 方面 的 问题 。 然 而 ， 该 方法 尚未 
在 一 个 移动 车 辆 中 对 不 同 的 信号 进行 测试 。Broggi 等 人 将 实时 路 标识 别 分 为 3 个 
步骤 : 颜色 分 制 、 形 状 检测 以 及 通过 神经 网 络 进行 分 类 。 然 而 ， 车 辆 运动 问题 没 
有 了 明确 地 提出 。Jimenez 等 人 使 用 了 路 标 形 状 的 FFT 特征 和 基于 SVM 的 分 类 器 。 
作者 声称 该 算法 在 不 利 的 条 件 如 缩放 、 旋 转 及 投影 变形 和 遮挡 等 条 件 时 是 很 鲁 
BEN 














15.3 系统 效用 分 析 和 机 电 一 体 化 集成 


近年 来 ， 耳 语 语音 处 理 已 经 取得 了 一 些 研 究 。 在 本 节 中 ， 由 2007 年 的 FARS 
事故 因果 关系 数据 ?2 ， 进 行 了 一 个 关于 CV 系统 效果 和 成 本 的 预测 调查 分 析 。 首 
先 ， 对 FARS 数据 库 进 行 了 调查 ， 来 获得 死亡 的 人 数 作为 列 , £T EJEJLT- 25 34 51 4H 
关 的 因素 。 此 表 被 重新 排列 成 一 个 更 紧凑 的 形式 ， 显 示 在 附录 15. 1 中 2 。 在 该 表 
中 ， 因 果 关 系 的 类 别 分 为 以 下 3 个 主要 组 : 驾驶 员 了 障碍、 驾驶 员 错 误 和 车 载 设 
备 。 重 新 定义 这 些 主要 群体 为 7 种 类 别 ， 匹 配 适 当 的 CV 系统 ， 有 可 能 防止 如 附 
录 表 15.2 所 示 的 事故 发 生 。 细 化 的 类 别 是 : 驾驶 员 障 碍 、 糟 糕 的 决策 、 和 鲁莽 到 
驶 、 亚 劣 的 横向 控制 、 纵 向 控制 不 佳 、 机 动能 力 差 和 车 载 设备 。 数 据 库 的 分 布 显 
示 在 图 15.2 中 。 从 这 个 图 中 我 们 可 以 看 到 ， 只 有 3496 的 死亡 人 数 是 由 驾驶 员 相 
关 的 原因 造成 的 ， 而 66% 的 数据 是 没有 分 类 的 或 没有 清晰 报道 的 。 因 此 ， 我 们 
可 以 说 ，34% 是 一 个 低估 的 值 。 尽 管 如 此 ， 从 因果 关系 方面 看 ，34% 的 死亡 率 的 
分 布 给 了 我 们 重要 的 信息 ， 即 驾驶 员 的 错误 应 该 加 以 预防 ， 而 且 驾 驶 员 需 要 更 多 
的 援助 。 从 事故 因果 关系 的 分 布 看 ， 可 以 清楚 地 看 到 糟糕 的 横向 和 纵向 控制 和 操 
纵 占 到 了 整个 事故 的 65% 。 通 过 DAS、 和 警告 和 主动 安全 系统 ， 这 个 数字 可 以 减 
少 。 使 用 附录 15.2 重新 定义 的 数据 表 ,， 来 执行 一 个 简单 的 分 析 ， 结 果 见 
# 15.1, 

从 表 15. 1 的 分 析 中 可 得 ， 最 有 益 的 系统 是 由 车 道 跟踪 、 视 觉 流 和 交通 标志 识 
别 来 确定 的 。 如 果 使 用 一 个 集成 的 系统 ， 根 据 即将 来 临 的 情况 ， 该 集成 使 用 相同 的 
调制 传感器 ， 那 么 最 有 益 的 系统 是 交通 场景 分 析 。 根 据 这 个 理由 ， 报 告 了 我 们 最 近 
所 设计 的 一 个 带 有 车 道 跟踪 和 交通 标志 识别 程序 的 初始 组 件 的 交通 场景 分 析 系 统 。 
该 系统 在 参考 文献 [22] 中 有 详细 陈述 。 
























































O 此 处 “附录 ”应 为 原 书 参考 文献 中 的 ， 本 书 无 。 后 文 此 类 情况 相同 。 译 者 注 
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碰撞 中 与 驾驶 员 相 关 的 因素 
目 与 驾驶 员 相关 的 因素 


B 与 驾驶 员 无 关 的 因素 





碰撞 中 与 驾驶 员 相关 的 因素 分 布 
TARNA 


E 糟糕 的 横向 控制 


3 糟糕 的 纵向 控制 


25% a 糟糕 的 操纵 





号 车 载 设 备 


30% 


其 他 类 型 
图 15.2 碰撞 中 与 驾驶 员 相关 的 因素 及 其 分 布 





表 15.1 使 用 预计 的 预防 率 和 系统 的 单位 成 本 的 效用 分 析 结 果 


























CV 系统 名 称 预计 预防 百分比 (96) 成 本 效用 
眼睛 和 头 部 跟踪 EHT 4 307 14.3 100 0. 143 
情绪 识别 ER 1 683 5.6 100 0. 056 

车 道 跟踪 LT 10 304 34.3 100 0. 343 
视觉 流 OF 9 279 30.9 80 0. 386 

车 道 更 换 识别 LCR 219 0. 73 80 0. 009 
道路 区 域 识 别 RAR 66 0. 22 50 0. 004 
车 辆 检测 和 跟踪 VDT 1 585 5.28 100 0. 053 
行人 检测 与 跟踪 PDT 31 0.1 100 0. 001 
交通 标志 识别 集成 系统 TSR 8 657 28. 8 80 0. 36 
交通 场景 分 析 TSA 20 664 68. 8 100 0. 688 
驾驶 员 预 警 系统 DW 24 971 83.2 200 0. 416 


描述 于 图 15. 3 中 的 一 般 框 架 结 构 其 目的 是 提取 整体 的 交通 环境 。 详 细 的 路 径 
跟踪 算法 如 图 15. 4 所 示 。 来 自 路 标识 别 模块 的 样 例 输出 显示 在 图 15.5 中 。 
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道路 标 


志 识 别 





(空间 提示 ) 






道路 现场 视频 流 
道路 BUS 道路 标志 


(编码 ) 







1 车 辆 在 车 道上 的 位 置 
2 道路 上 的 车 道 位 置 

3 车 道 数 (道路 类 型 ) 
4 车 道 标 记 类 型 

5 道路 坐标 





基于 规则 的 说 明 


[ 交通 环境 ] 


图 15.3 TSA 系统 总 体 框架 (图 15.4 给 出 了 详细 的 多 功能 车 道 跟 踪 算法 ) 


道路 色彩 概率 分 布 

















输入 





图 15.4 通用 的 车 道 跟 踪 算 法 (来 自 车 道 跟踪 和 道路 标志 
识别 部 分 的 一 些 示 例 性 的 结果 示 于 图 15. 5 中 ) 
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图 15.5 ”一 个 输出 道路 区 域 检测 和 车道 追踪 的 实例 和 





放大 后 的 路 标识 别 模块 中 的 颜色 分 割 停止 标志 
a) 一 个 输出 道路 区 域 检测 和 车 道 追 踪 的 实例 b) 放大 后 的 路 标识 别 模块 中 的 颜色 分 割 停止 标志 




















第 一 步 ， 使 用 基于 规则 的 专家 信息 系统 ， 可 以 实现 不 同 图 像 处 理 模块 之 间 信 息 
的 融合 。 在 这 里 ,我 们 结合 伴随 警告 、 信 息 报 文 和 安全 功能 激活 等 输出 选项 的 视觉 
算法 输出 提出 了 一 套 规则 。 

案例 1， 如果 路 标 是 0， 车 道 位 置 的 标准 偏差 < 10 像素 ， 车 辆 速度 的 标准 偏 
差 <10km/h; 情境 : 正常 巡航 。 

案例 2: 如 果 路 标 是 0， 车 道 位 置 的 标准 偏差 < 10 像素 ， 车 辆 速度 的 标准 偏 
差 >10km/h; 情境 : 走 走 停 停 的 路 况 ， 有 可 能 存在 交通 拥堵 ; 输出 : 向 交通 控制 
中 心 发 送信 息 。 

案例 3 : 如 果 道 路 标志 是 1， 车 辆 速度 20km/h; 情境 : 临近 限 速 ;输出 : 警 





























ie. 
Ho 


案例 4: 如 果 路 标 是 2， 车 辆 速度 > 20km/h; 情境 : 接近 停止 标志 且 驾 驶 员 没 
有 减速 ;输出 警告 并 激活 速度 控制 和 辅助 制 动 。 

案例 5: 如 果 路 标 是 3， 车 辆 速度 20km/h; 情境: 行人 标志 临近 ; 输出 : 警 
告 并 激活 制 动 协助 。 

这 些 情 况 只 代表 一 部 分 基于 规则 的 方案 ， 该 方案 很 有 可 能 使 用 基于 更 先进 规则 
的 构建 方法 ， 如 模糊 逻辑 ( 见 图 15. 4 和 图 15.5) 。 








15.4 小 结 





本 章 简要 叙述 了 车 载 应 用 中 先进 的 计算 机 视觉 系统 。 用 关键 的 方法 来 衡量 这 些 
系统 和 它们 的 优点 ， 给 出 了 一 个 实用 的 分 析 ， 如 果 能 够 提供 完整 的 交通 场景 分 析 系 
统 将 是 最 优化 的 工作 。 从 效用 分 析 中 得 到 的 鼓舞 ， 促 使 我 们 报道 了 UTDrive 使 用 相 
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同 的 传感器 ， 结 合 不 同 的 图 像 / 视 频 处 理 算法 和 集成 的 机 电 一 体 化 的 方法 所 进行 的 
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摘要 : 在 智能 车 辆 上 ， 有 许多 来 自 移 动车 辆 的 应 用 ， 用 来 检测 和 定位 其 他 交通 
参与 者 ， 特 别 是 行人 。 在 这 个 研究 中 ， 我 们 利用 图 像 传感器 ， 即 将 立体 摄像 机 安装 
在 一 个 车 辆 上 ， 解 决 了 这 些 问题 。 我 们 使 用 了 集成 基于 外 观 行人 检测 和 稀疏 深度 信 
计 的 方法 。 为 了 受益 于 深度 估计 ,我们 将 人 类 实际 高 度 的 分 布 映射 到 图 像 上 ， 以 便 
更 新 检测 结果 。 同 时 ， 深 度 信 息 能 改变 行人 的 假设 ， 并 能 更 好 地 用 于 定位 。 区 别 于 
先前 其 他 研究 的 是 ， 我 们 首先 考虑 的 是 精确 度 和 计算 成 本 的 平衡 ， 并 尝试 对 机 载 应 
用 做 出 最 有 效 的 集成 。 

关键 词 : 直方 图 的 定向 梯度 (HOG); INRIA 的 数据 ; 行人 检测 ; 立体 相机 


16.1 简介 





在 许多 应 用 程序 中 ， 如 智能 车 辆 和 机 器 人 导航 ,行人 检测 是 一 个 非常 基本 的 部 
分 。 在 本 章 ， 我 们 通过 使 用 图 像 传感器 来 解决 这 个 问题 ， 该 传感器 具有 明显 的 可 见 
性 和 低 成 本 的 优势 。 利 用 图 像 传感器 ， 找 到 行人 通常 的 方法 是 能 滑动 所 有 范围 内 的 
窗口 以 及 图 像 的 位 置 ， 提 取 每 个 窗口 的 特征 以 便 能 匹配 预先 训练 好 的 模型 ， 并 返回 
一 组 带 有 匹配 分 数 的 检测 。 显 然 ， 更 多 的 特色 和 更 具 代表 性 的 模型 将 带 来 更 好 的 精 
确 度 。 然 而 ， 这 种 方法 的 改善 有 时 需要 额外 的 处 理 时 间 ， 通 常 减 慢 了 整个 系统 的 
WEN 

在 大 多 数 实际 应 用 程序 中 ， 速 度 和 准确 性 是 至 关 重 要 的 ， 也 是 应 该 同时 解决 的 
问题 。 当 然 ， 耗 时 的 方法 是 不 推荐 的 ， 然 而 最 简单 和 最 快 的 方法 其 本 身 又 不 够 鲁 
棒 。 下 面 举 一 个 例子 如 图 16.1 所 示 。 我 们 对 街景 图 像 应 用 了 参考 文献 [2] 中 的 

一 个 非常 简单 的 行人 检测 。 当 使 用 严格 的 标准 选择 候选 人 ， 即 用 实 线 所 示 边 界 框 标 
出 ,许多 行人 真正 发 生 的 情况 被 忽视 了 。 当 我 们 让 选择 标准 松散 时 ， 有 些 错 过 了 的 
真正 事件 才能 被 成 功 发 现 。 但 第 二 种 方法 有 一 Be ele agen 这 意味 
着 一 个 检测 器 使 用 简单 的 特性 和 粗糙 的 模型 ， 就 其 本 身 而 言 ， 其 能 力也 不 容 忽视 。 
人 
进行 补偿 。 

有 几 项 研究 已 经 试图 用 其 他 方法 进行 行人 检测 。Leibe 等 人 5 提出 了 使 用 场景 
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图 16.1 经 严格 选择 的 候选 人 《〈 实 线 边框 ) 以 及 使 用 宽松 的 





标准 可 以 发 现 更 多 候选 人 (虚线 边框 ) 





几何 来 改善 目标 检测 的 方法 。 因 为 假设 行人 只 可 能 支持 地 平面 ， 所 以 一 些 错 误 的 检 
测 结果 就 会 被 过 滤 掉 。 在 男 一 项 研究 中 ，Gavrila 和 Munder ^ 提出 了 一 个 系统 ， 该 
系统 包括 一 个 串联 模块 ， 其 中 每 个 单元 都 采用 了 互补 的 视觉 标准 来 缩小 图 像 搜索 空 
间 。 这 两 个 都 是 极 好 的 研究 ， 然 而 这 些 附加 的 方法 主要 用 来 摆脱 错误 的 结果 ， 但 无 
法 支持 一 个 真正 的 结 

在 最 近 的 一 个 出 版 物 中 ，Hoiem 等 人 号 展示 了 如 何 利用 场景 元 素 ， 由 单个 图 像 
来 有 效 地 共同 确定 相机 的 视角 、 对 象 的 号 份 和 表面 几何 图 形 。 利 用 这 些 场 景 元 素 之 
间 的 概率 关系 ， 结 合 起 来 可 以 使 一 个 简单 的 检测 器 变 得 更 有 识别 力 。 然 而 ， 由 于 几 
何 估计 模块 花费 太 多 的 时 间 ， 他 们 的 方法 使 用 有 很 大 的 局 限 性 。 

在 本 章 ， 我 们 在 基于 这 些 想法 的 基础 上 ， 通 过 整合 简单 的 基于 外 观 的 对 象 检测 
器 以 及 稀 玻 深度 估 值 来 拓展 这 些 想法 。 通 过 合理 模拟 对 象 之 间 相 互 依赖 的 假设 和 它 
们 的 位 置 ， 我 们 不 仅 可 以 避免 对 象 的 不 合理 深度 假设 ， 也 可 以 让 敏感 的 深度 信息 来 
支持 一 个 真正 的 实体 。 此 外 ， 我 们 使 用 深度 信息 是 一 个 独立 的 假设 ,而 且 可 以 比 之 
前 进行 得 更 为 迅速 。 


16.2 总 体 策略 


以 立体 图 像 作为 输入 ,我 们 的 系统 主要 有 两 个 互补 的 模块 ， 它 们 能 够 并 行 运 
行 。 第 一 个 是 一 个 行人 检测 器 ， 它 处 理 从 左 侧 相 机 进入 的 图 像 ， 只 根据 图 像 特征 来 
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找 出 行人 的 主观 假设 。 对 于 图 像 中 每 一 个 行人 的 主观 假设 ， 检 测 器 将 分 配 一 个 周围 
边框 和 一 个 检测 分 值 来 显示 其 置信 度 。 第 二 个 模块 是 稀 琉 深 度 估 值 ， 利 用 立体 图 像 
一 起 来 估计 一 个 来 自 左 相机 的 图 像 的 稀 醇 深度 映射 

为 了 将 这 两 个 模块 集成 在 起， 我 们 使 用 概率 的 方法 。 我 们 假设 一 个 物体 成 像 
高 度 的 条 件 是 对 象 类 别 及 其 相对 相机 的 距离 。 但 是 对 象 的 身份 和 他 们 的 距离 是 独立 
于 彼此 的 。 使 用 一 个 图 形 化 的 模型 ， 我 们 可 以 使 用 
对 象 的 身份 。,、 成 像 高 度 有 和 相应 的 三 维 距离 d, 来 ORO 
表示 这 个 有 条 件 的 独立 ， 如 图 16.2 所 示 。 这 个 1 表 AX 
示 左边 摄像 机 图 像 ，D HART LBV KEW, € 634-0. 
使 用 立体 图 像 对 进行 估 值 ， 两 者 在 我 们 的 模型 中 都 

图 16.2 图 形 模型 

















是 可 以 观察 到 的 。 通 常 ， 在 一 个 图 像 中 我 们 假设 有 
n 个 对 象 ， 其 中 根据 图 像 而 变化 。 
在 这 个 模型 中 ， 整 体 的 联合 概率 的 场景 元 素 可 以 写 在 下 式 中 : 

P(o,d,h,I,D) = [[P(o)P(4)) PCD;| dj) P(11 0,)P(h,| 0,,d;) (16.1) 


根据 观测 到 的 证 据 了 和 DD， 我 们 可 以 使 用 贝 叶 斯 规则 ， 来 给 出 场景 元 素 以 这 些 
证 据 为 条 件 的 可 能 性 : 

P(o,d,hM,D) & IIP(A1o;,d;) PCo, D) PCd,AD) (16.2) 

这 个 比例 方程 是 关于 了 和 DD 的， 它们 都 是 来 自立 体 图 像 中 恒定 的 证 据 。 右 侧 ， 
P(o,| I) 是 指 由 给 定 图 像 证 据 得 到 的 对 象 假设 的 置信 和 度 ， 这 可 以 根据 我 们 的 行人 
检测 器 来 估计 。P(h, 1 o, di) 由 图 像 高 度 访 观察 到 的 假设 的 可 能 性 ， 以 它 的 类 别 
的 三 维 深度 为 条 件 。 在 我 们 的 例子 中 ， 它 可 以 通过 引入 一 种 行人 实际 高 度 的 先 验 分 
布 方法 来 估计 。P(d, 1 D) 是 给 定 来 自 深度 分 布 的 深度 证 据 后 ,深度 估 值 的 置 
TE, 

在 这 里 ， 我 们 以 一 个 显 式 的 方式 估计 深度 ， 其 中 每 个 对 象 假设 的 深度 是 准确 
的 ， 并 没有 任何 的 概率 描述 。 这 让 我 们 保证 了 d 左边 和 右边 两 方面 的 边 值 ， 因 此 ， 
对 单个 对 象 的 假设 ， 我 们 能 够 得 到 

P(0,,h,11,D) © P(h,lo,,d;) P(o,lI) (16.3) 
式 中 P(o, h,| I, D) 25 E Fe ES DRIED, MX en BEDS. ,的 对 象 假设 o; 的 
概率 ， 它 伴随 着 P(h,| o, d) 和 P(o1 D) 传播 ， 可 以 认为 是 一 种 改进 的 对 象 假 
设 的 置信 度 估 值 ， 该 估 值 不 仅 考虑 了 图 像 证 据 ， 也 考虑 了 深度 信息 。 

通过 对 每 个 实体 假设 P(o，, hil I, D) 的 分 值 进行 排序 ， 并 挑 出 最 高 分 的 那 
个 ， 即 可 得 到 改进 的 检测 结果 。 下 面 将 介绍 我 们 从 立体 图 像 中 得 到 PCR | o, d;) 
和 P(o,| D 的 方法 。 
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16.3 行人 检测 


为 了 获得 一 组 行人 假设 ,我 们 构建 了 一 个 类 似 参 考 文 献 【6] 中 表述 的 基准 检 
测 器 。 作 为 分 类 器 ， 使 用 了 面向 梯度 的 直方 图 (HOG) 特征 和 线性 支持 矢量 机 。 
为 了 区 分 来 自 原始 的 用 于 参考 文献 [6] 的 36 维 HOG 特征 ， 我 们 使 用 一 个 来 自 参 
考 文 献 [1] 中 的 31 维 应 用 来 取代 它 。 同 时 ,为 了 简化 训练 过 程 并 提高 运行 时 的 
性 能 ， 使 用 了 一 个 低 维 的 特性 集 ， 这 样 可 使 一 个 分 类 器 利用 较 少 的 参数 。 

通过 训练 我 们 的 检测 器 ， 我 们 使 用 一 个 现 有 的 SVMPerf7 包 ， 它 被 高 度 优化 ， 
用 于 训练 带 有 大 量 数据 组 的 二 进 制 两 级 分 类 SVM。 在 这 项 研究 中 ，INRIA 的 人 数据 
集 组 织 为 3610 个 正面 行人 样本 ， 使 用 的 大 小 为 70 x134。 随 机 选取 1239 个 无 人 的 
图 像 数 据 集 ， 其 中 负面 的 样本 包含 固定 数量 为 15000 的 补丁 ， 训 练 后 返回 一 个 
3255 维 的 线性 分 类 器 (70 x134 大 小 补丁 图 像 的 特征 矢量 ) 。 

当 一 个 新 颖 的 图 像 出 现 ， 我 们 通过 滑 窗 的 尺度 和 位 置 来 找到 假设 。 对 于 每 个 子 
窗口 ， 通 过 预 训练 的 线性 模型 和 图 像 补丁 的 特征 矢量 进行 数量 积 来 评估 得 分 。 如 果 
得 分 是 大 于 阔 值 的 ， 我 们 可 以 把 它 作 为 一 个 假设 或 者 丢弃 它 。 通 常情 况 下 ， 对 于 一 
个 图 像 部 分 ,很 可 能 是 一 个 行人 实例 ， 在 它 周 围 的 盒子 得 分 会 很 高 。 为 了 消除 相同 
实例 的 任何 重 又 边界 框 ， 我 们 执行 非 极 大 值 抑制 ， 使 每 个 实例 只 有 一 个 选择 框 。 

通过 这 种 方式 ， 我 们 将 得 到 一 组 假设 ， 其 中 包括 一 个 行人 实例 ， 每 个 实例 有 一 
个 边界 框 和 一 个 分 类 评分 。 然 而 ， 分 类 分 值 是 在 ( - %w，+ % ) 范围 内 的 。 因 为 
我 们 的 图 形 模型 想 要 一 个 概率 输入 P(o,1 7) ， 该 输入 应 在 区 间 (0, 1) 上 ， 因 此 
我 们 使 用 逻辑 回归 ， 将 SVM 输出 转化 为 概率 形式 : 

1 
TIte" 
式 中 x 一 一 来 自 数 量 积 的 分 类 得 分 输出 ，; 

PP 一 一 对 应 得 分 的 概率 形式 ; 

A 和 B 一 一 可 以 通过 收集 一 组 x 和 p 进行 估计 的 一 组 参数 。 

与 新 的 分 类 评分 x' 相 比 ， 我 们 将 对 应 的 p' 作 为 P(o 1 D). 



































(16.4) 


+B 














16.4 行人 实例 的 定位 


使 用 一 个 基于 描述 符 的 匹配 来 获得 稀 琉 深度 图 ， 这 个 方法 与 我 们 以 往 的 研究 工 
作 的 区 别 在 于 密度 大 时 如 何 佑 计 深 度 。 虽 然 它 只 能 提供 一 个 稀 玻 表 示 的 场景 ， 然 而 
它 比 闭塞 而 且 无 纹理 的 稠密 匹配 更 加 明确 。 为 了 使 深度 地 图 不 很 “ 稀 蓝 ”， 我 们 使 
用 两 种 不 同类 型 的 关键 点 "来 与 立体 影像 关联 ( 见 图 16.3) 。 

我 们 使 用 差分 高 斯 算 子 "来 提取 尺度 不 变 的 关键 点 ， 使 用 Harris 算 子 来 提取 
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角落 关键 点 。 对 于 尺度 不 变 的 关键 点 ， 我 们 利用 SIFT 的 GPU 实现 来 计算 它们 的 描 
述 符 ， 并 通过 测量 欧 几 里 得 距离 来 进行 匹配 。 该 方法 的 好 处 是 可 以 受益 于 Nvidia 
的 CUDA 技术 ， 并 可 以 在 处 理 大 小 为 640 x480 的 图 中 达到 25Hz 的 速度 ， 我 们 认为 
这 对 于 一 般 真实 世界 中 的 应 用 是 足够 的 。 角 落 里 的 点 通过 归 一 化 的 互相 关 来 与 相关 
窗口 关联 。 使 用 两 种 类 型 的 关键 点 有 助 于 快速 建立 足够 的 原始 对 应 。 





图 16.3 关键 点 ( 左 ) 和 它们 的 3D 坐标 


根据 原始 匹配 结果 ， 可 以 通过 加 强 Epipola 约束 和 执行 线性 三 角 测 量 ,来 进 一 
步 完善 ， 通 过 预 校准 摄像 机 和 矩阵 来 获得 它们 的 3D 坐标 。 我 们 设置 了 左 相 机 的 光学 
中 心 作为 坐标 原点 ， 然 后 z 坐标 表示 的 是 每 个 匹配 关键 点 的 深度 。 

对 于 得 到 的 每 个 对 象 的 假设 ， 在 其 边界 框 包括 盒子 深度 在 内 ,我 们 收集 所 有 匹 
配 的 关键 点 ， 并 选择 了 一 个 作为 边界 框 深度 的 代表 。 这 里 我 们 用 了 一 个 简单 的 方 
法 ， 即 通过 寻找 十 字 路 口 对 角 线 周围 最 近 的 特征 点 来 选择 代表 点 ， 并 把 这 个 深度 作 
为 假设 深度 d; 。 

尽管 很 简单 ， 但 是 相 比 其 他 方法 ， 比 如 使 用 均值 偏 移 来 直接 找到 质心 的 坐标 ， 
这 个 解决 方案 执行 的 情况 更 好 。 其 原因 可 能 是 大 量 的 匹配 点 是 在 对 象 的 边界 发 现 
的 ， 而 均值 偏 移 经 常 停留 在 极 值 处 。 











16.5 利用 先 验 高 度 分 布 


行人 假设 P(h,1 0,, di) 的 影像 高 度 概率 ， 可 通过 所 观测 到 的 边界 框 ,与 距离 
条 件 高 度 分 布 P(h, 1 o, di) 的 乘积 来 获得 。 而 后 者 可 通过 深度 d, 以 及 人 实际 高 度 
的 先 验 分 布 来 获得 。 

给 定 一 个 条 件 分 类 假设 o,， 其 距离 d, 以 及 相机 的 焦距 f， 这 些 参数 我 们 已 经 从 
相机 的 标定 中 得 知 ， 我 们 进一步 使 用 一 个 简单 的 高 斯 分 布 来 模拟 一 个 成 年 人 的 身 
高 。 高 斯 分 布 的 参数 可 以 从 统计 数据 中 估计 。 我 们 按照 参考 文献 [5] 的 方法 ,使 
用 平均 值 为 1.7m HEREZH 0. 085m 作为 行人 的 高 度 分 布 ， 因 此 高 度 分 布 可 写 为 
H~N (1.7, 0.085), 
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给 定 行 人 实际 高 度 的 先 验 分 布 7， 通 过 使 用 相似 关系 ,我们 可 以 用 hh = HI D 
来 代表 影像 中 的 行人 高 度 。 因 为 ,，H~N (1.7, 0.0857), PRU, 仍然 是 一 个 简 
单 的 高 斯 分 布 ， 平 均值 为 1.7f/d,;， 而 标准 差 为 0.085f/d,。 因 此 ， 我 们 得 到 

PCIe dye (7 4. (o. 085 £Y) (16.5) 

根据 这 个 影像 高 度 分 布 以 及 所 观测 到 的 每 个 边界 框 的 高 度 六， 每 个 假设 的 置信 

度 可 以 通过 测 器 输出 的 结果 P(o,| D) 和 P(h| o, d) 的 乘积 来 更 新 。 获 得 的 更 

新 置信 度 已 经 考虑 到 了 深度 信息 ， 比 只 估计 视 觉 特 征 而 得 到 的 结果 更 具备 识别 
能 力 。 























16.6 实验 结果 





我 们 现在 呈现 一 个 实验 来 显示 我 们 的 方法 的 性 能 。 测 试 中 我 们 使 用 的 数据 收集 
自 ETHZ 行人 数据 集中 ， 其 中 包含 了 5235 对 立体 图 像 ， 该 图 像 中 只 有 移动 车 辆 或 
移动 机 器 人 。 这 些 影像 来 源 于 自动 预 校准 相机 ， 行 人 在 左边 的 摄像 机 图 像 中 ， 用 边 
框 标注 作为 基准 。 数 据 作为 序列 ， 所 以 有 一 些 连续 帧 几乎 是 相同 的 场景 。 因 为 我 们 
的 工作 只 是 试图 评估 单 帧 的 检测 性 能 ， 所 以 重新 排列 数据 集 ， 以 挑选 出 场景 结构 不 
同 的 图 像 对 。 最 后 的 测试 集 包 含有 133 对 立体 影像 ， 其 中 有 798 个 标注 为 基准 。 

在 我 们 的 实验 中 ， 测 试 了 三 个 检测 系统 。 首 先是 我 们 的 基准 检测 器 ， 它 使 用 
HOG 特性 和 线性 支持 矢量 机 。 第 二 个 是 我 们 提出 的 系统 ， 整 合 了 基准 检测 器 和 稀 
琉 的 深度 估 值 。 第 三 个 是 UoCTTI 检测 器 (0 ， 它 采用 多 尺度 可 变形 部 件 模型 的 混 
合 ,是 在 使 用 帕斯卡 对 象 检测 的 方法 中 最 好 的 检测 器 。 

检测 来 自我 们 133. 立体 像 对 的 数据 集中 的 复杂 图 像 时 ，3 个 系统 对 一 些 实例 检 
测 的 结果 显示 在 图 16.4 中 。 三 列 从 左 到 右 分 别 显示 针对 相同 的 图 像 ， 基 准 检测 系 
统 、 我 们 提出 的 集成 系统 以 及 UoCTTI 系统 这 三 个 系统 各 自 的 输出 。 为 公平 比较 ， 
每 个 系统 只 有 置信 度 在 前 十 的 检测 才能 被 视 为 输出 。 

一 般 来 说 ，UoCTTI 检测 器 进行 的 性 能 是 最 好 的 ， 原 因 是 进行 了 更 高 级 的 建 模 。 
除了 鲁 棒 的 低 阶 特征 ， 这 个 检测 器 使 用 被 称 为 变形 部 件 模型 的 层次 结构 异型 来 表示 
对 象 类 别 。 一 般 来 说 ， 该 检测 器 能 发 现行 人 ， 不 仅 因为 它们 看 起 来 像 一 个 人 ， 同 时 
也 因为 它们 有 身体 的 部 件 ( 如 头 、 手 和 腿 ) ， 目 这 些 部 件 有 一 定 的 位 置 。 这 使 得 检 
测 器 对 闭塞 环境 表现 更 加 鲁 棒 。 当 在 拥挤 的 场景 和 大 型 行人 拥挤 的 条 件 下 区 分 不 同 
的 人 体 部 分 ，UoCTTI 的 性 能 比 基 准 检测 器 系统 以 及 我 们 提出 的 集成 检测 系统 性 能 
要 更 好 。 

相 比 基 准 检测 器 的 原始 输出 ， 我 们 的 集成 系统 在 不 同 的 场景 中 做 得 也 很 好 。 原 
因 在 于 ， 我 们 结合 了 深度 因素 。 通 过 它 ， 系 统 可 以 通过 考虑 到 检测 器 的 观测 高 度 更 
好 地 找到 行人 ， 同 时 更 新 检测 置信 度 并 变 得 更 加 合理 。 
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图 16.4 实验 结果 [ ( 左 ) 基准 系统 ; (中 间 ) 集成 系统 ; (A) UoCTTI 系统 ] 


从 实验 中 ,一 些 广场 场景 图 像 ， 显 示 在 图 16.4 第 二 行 中 ,我 们 的 集成 系统 可 
以 表现 得 比 UoCTTI 检测 器 更 好 。 我 们 认为 其 原因 在 于 不 同 的 信息 来 源 之 间 的 互相 
权衡 。UoCTTI 检测 器 根据 的 是 一 个 可 变形 的 部 件 模 型 以 及 身体 部 件 的 位 置 ， 从 而 
改善 了 检测 水 平 ， 但 同时 这 种 方法 也 有 缺点 。 因 为 最 后 的 检测 结果 是 部 分 基于 身体 
部 位 及 其 相应 位 置 的 ， 在 图 像 分 辩 率 很 低 (部 件 在 视觉 上 不 是 很 清晰 ) 或 行人 实 
例 很 小 〈 身 体 部 件 无 法 区 分 ) 时 ， 他 们 的 模型 处 于 不 利 的 地 位 ， 检 测 结 果 的 得 分 
将 很 低 。 相 比 之 下 ,我 们 的 集成 系统 采用 深度 信息 ， 不 依赖 于 任何 一 种 条 件 CR. 
要 深度 估计 准确 )。 对 于 在 图 像 中 行人 实例 很 小 时 ， 深 度 将 提供 更 多 的 帮助 ， 因 为 
深度 信息 本 身 不 依赖 于 图 像 的 分 辨 率 。 

我 们 大 量 的 实验 使 用 精密 回忆 (PR) 曲线 来 衡量 一 个 检测 系统 的 实际 执行 情 
况 。 它 很 好 地 叙述 了 一 个 对 象 是 如 何在 实际 中 被 检测 的 。 为 公平 比较 ， 我 们 仍然 接 
受 排名 前 十 的 假设 作为 系统 输出 。3 种 系统 性 能 关于 133 立体 图 像 的 比较 情况 绘制 
在 图 16.5 中 。 

在 大 多 数 情况 下 ， 使 用 可 变形 部 件 建立 模型 的 检测 器 一 直 保持 精确 度 在 0.5 附 
近 。 通 过 整合 深度 信息 ， 我 们 提出 的 系统 明显 优 于 基准 检测 器 ， 接 近 最 好 的 一 个 。 

我 们 对 这 三 个 方法 显示 的 总 体 性 能 计算 了 平均 精确 度 。 结 果 分 别 为 0. 2325 
(我 们 的 方法 ) 0.1738 〈 基 准 ) 0.2530 (UoCTTI) 。 

在 没有 任何 速度 优化 的 前 提 下 ， 在 2. 83 CHz 英特尔 酷睿 2、 四 核 CPU, 4GB 内 
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存 条 件 下 ， 在 处 理 大 小 为 640 x 480 的 单一 图 片 时 ， 三 种 方法 的 平均 速度 分 别 是 
1.73 (我 们 的 方法 ) 1.7 (基准 ) 和 8.4 (UoCTTI) , UoCTTI 检测 器 是 相当 耗 时 
的 。 它 所 用 时 间 将 近 是 基准 检测 器 的 5 倍 。 因 为 UoCTTI 检测 器 也 使 用 HOG 低 阶 特 
征集 ， 它 在 运行 时 的 劣势 可 能 主要 归结 为 复杂 模型 的 使 用 。 因 此 ， 即 使 该 系统 很 强 
大 ， 在 时 间 问 题解 决 之 前 ， 它 也 很 难 用 在 一 些 应 用 中 。 

经 过 仔细 选择 有 效 的 因素 ， 我 们 的 集成 系统 也 可 以 运行 得 非常 快 。 虽 然 这 个 系 
统 在 一 些 应 用 中 运行 时 间 的 性 能 不 够 好 ， 但 它 仍 有 改进 的 余地 。 目 前 ， 在 我 们 的 系 
统 中 ， 最 耗 时 的 部 分 是 HOG 特征 金字 塔 计算 和 滑动 窗口 搜索 。 如 果 使 用 GPU 编 
程 ， 这 两 种 处 理 可 以 做 得 更 快 ， 因 此 我 们 的 集成 系统 仍 有 可 能 使 用 在 实时 应 用 中 。 














16.7 小 结 


本 曹 我 们 提出 了 一 个 在 交通 领域 的 行人 检测 方法 。 我 们 结合 了 典型 目标 检测 方 
法 和 稀 下 的 深度 估 值 。 通 过 考虑 “ 近 大 远 小 ”这 一 生活 常识 ， 我 们 使 用 三 维 深 度 信 
息 来 改善 检测 精确 度 。 

我 们 的 集成 系统 的 效率 如 我 们 的 实验 所 示 。 没 有 添加 太 多 的 处 理 时 间 ， 我 们 的 
方法 可 以 显著 提高 基准 检测 系统 的 性 能 水 平 ， 甚 至 接近 一 个 最 先进 的 检测 系统 水 
SET 。 对 于 后 者 ， 对 相同 尺 十 的 图 像 进行 检测 的 处 理 时 间 将 花费 近 5 倍 。 除 了 效率 
外 ， 从 实验 中 还 发 现 的 另 一 件 事 是 ， 族 度 的 使 用 与 图 像 分 辨 率 和 实例 的 大 小 无 关 。 
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这 将 使 基准 系统 对 于 所 有 不 同类 型 场景 的 性 能 都 有 稳定 的 改善 。 





然而 ， 一 些 问 题 仍然 存在 于 当前 的 系统 。 首 先 ， 我 们 引入 的 深度 信息 是 通过 显 
式 方 法 获得 的 。 这 将 在 某 种 程度 上 ,使 该 系统 对 深度 估计 的 误差 变 得 很 敏 
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次 ,我 们 的 系统 在 处 理 闭 塞 或 群众 场景 时 相对 较 弱 。 在 未 来 的 工作 中 ， 我 们 将 主要 
关注 鲁 棒 的 深度 估计 和 闭塞 处 理 。 


= 
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第 17 曹 一 种 基于 人 类 感知 系统 局 限 性 的 
超车 判断 检测 : 驾驶 员 辅 助 系 统 的 作用 


Anand Tharanathan 


摘要 : 在 超车 时 发 生 交通 事故 是 一 个 全 球 问 题 ， 这 样 的 事故 每 年 都 导致 大 量 的 
人 员 伤 亡 。 同 样 的， 每 年 追尾 事故 也 有 很 大 的 比例 ， 然 而 对 于 两 种 事故 根本 原因 研 
究 的 差异 却 很 大 。 一 些 文 献 研究 了 驾驶 员 在 跟 车 时 的 表现 ， 这 反 过 来 又 导致 了 开发 
驾驶 员 辅 助 系统 以 避免 追尾 事故 。 然 而 ， 只 有 很 少 的 文献 试图 研究 在 进行 超车 任务 
时 的 判断 ， 其 至 更 少 的 文献 研究 了 对 驾驶 员 在 这 样 一 个 机 动 过 程 中 感知 上 的 要 求 。 
因为 开车 主要 是 一 个 视觉 任务 ， 在 本 章 中 ， 将 详细 研究 超车 的 任务 ， 其 重点 是 在 人 
类 知觉 系统 上 的 局 限 性 。 同 时 ， 为 了 更 好 地 理解 超车 任务 的 复杂 性 ， 比 较 了 一 个 超 
车 任务 与 一 个 跟 车 任务 。 作 为 一 个 与 设计 相关 的 研究 ， 本 章 给 出 了 在 使 用 一 个 典型 
的 前 方 碰撞 避免 预警 系统 (设计 来 避免 追尾 ) 来 帮助 超车 任务 时 的 一 些 缺 点 。 考 
虑 到 这 些 局 限 性 ， 描 述 7 个 功能 上 的 需求 ， 它 们 在 设计 轰 驶 员 辅 助 系统 来 支持 安全 
超车 时 是 重要 的 考虑 因素 。 最 后 ， 提 出 一 个 模型 来 设计 驾驶 员 辅 助 系统 ， 强 调 通过 
提高 来 自 交 通 环境 的 视觉 信息 的 有 效 性 来 克服 驾驶 员 的 知觉 局 限 性 。 

关键 词 : 驾驶 员 辅 助 系 统 ; 超车 ; 知觉 判断 


17.1 简介 


每 年 交通 事故 都 会 引起 严重 的 死亡 和 伤害 。 在 欧洲 ， 每 年 由 于 交通 事故 有 
42500 人 死亡 ，350 FAS. TER, ZEEE, AME AGL 42000 人 由 于 机 动车 
事故 死亡 。 因 此 ， 需 要 找到 这 些 碰撞 事故 的 潜在 原因 。 据 研究 ， 约 90% 的 交通 
事故 可 以 归 因 于 人 为 错误 3 ， 大 量 学 者 研究 了 驾驶 员 在 跟 车 扩 、 左 右 转弯 5 以 及 
在 交叉 路 口 的 情况 !95 。 同 时 ， 计 算 机 视觉 和 智能 交通 系统 的 研究 推动 了 用 来 帮助 
驾驶 者 的 一 些 驾驶 辅助 系统 (DAS) WAKE, Ban, ERE, HA TAWI 
和 车 道 保 持 等 方面 | 。 

然而 ， 很 少 有 研究 关注 驾驶 员 对 超车 路 线 的 判断 。 这 是 很 令 人 惊讶 的 ， 
因为 超车 动作 失误 每 年 会 造成 许多 致命 的 事故 “1。 例 如 ， 在 1995 ~ 2000 年 ， 荷 兰 
每 年 约 26 个 交通 参与 者 死 于 由 于 超车 失败 的 事故 "*。 此 外 ， 据 报道 ， 在 英国 诺 丁 
汉 郡 ， 由 于 超车 失误 造成 的 伤亡 也 占 事故 总 数 很 大 比例 ' 中 。 同 时 ， 在 美国 ， 在 
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2000 年 ， 有 138000 起 事故 是 由 于 超车 造成 的 ， 同 时 这 些 事故 导致 了 全 部 事故 死亡 
率 的 2. 1% ， 伤 亡 率 的 1.1% 77 。 简 言 之 ， 全 球 事故 数据 表明 ， 确 定 超车 过 程 中 事 
故 发 生 的 根本 原因 是 至 关 重 要 的 。 因 为 开车 主要 是 一 个 视觉 任务 :5 ， 在 这 个 动作 
中 知觉 系统 存在 局 限 性 ， 导 致 人 类 产生 错误 的 判断 ， 对 其 进行 识别 是 有 利 的 。 因 
此 ， 有 必要 研究 出 人 体 工 程 学 的 解决 方案 ， 通 过 开发 DAS 来 克服 这 种 局 限 性 ， 从 
而 在 超车 动作 中 帮助 驾驶 员 。 

在 本 章 中 ,我们 处 理 了 5 个 特定 的 主题 。 首 先 ， 我 们 辨识 在 超车 过 程 中 ， 轰 驶 
员 所 依赖 的 视觉 信息 的 来 源 ， 以 及 驾驶 员 在 这 样 的 动作 中 通常 作出 的 知觉 判断 。 第 
二 ， 更 好 地 理解 超车 的 复杂 性 ， 我 们 比较 一 个 超越 任务 与 一 个 跟 车 任务 ， 尤 其 是 跟 
车 任务 的 判断 已 经 广泛 研究 。 针 对 两 种 类 型 的 任务 ， 我 们 在 此 概括 了 在 现 有 的 
视觉 信息 和 相关 判断 方面 的 关键 差异 。 第 三 ， 因 为 前 方 碰撞 避免 预警 系统 
(FCAWS) 可 以 在 跟 车 时 帮助 驾驶 员 ， 我 们 研究 了 使 用 典型 的 FCAWS 帮助 超车 动 
作 的 可 能 性 。 基 于 已 知 的 在 人 类 知觉 系统 的 局 限 性 ， 以 及 现 有 FCAWS 功能 方面 的 
限制 ， 我 们 也 报告 了 在 使 用 这 样 的 FCAWS 来 支持 超车 动作 时 的 某 些 缺点 。 第 四 ， 
我 们 描述 了 7 个 功能 需求 ， 它 们 在 设计 具有 人 体 工 程 学 效率 的 DAS 来 支持 安全 超 
车 时 是 重要 的 考虑 因素 。 最 后 ， 我 们 提出 一 个 DAS 的 设计 模型 ， 强 调 通过 提高 来 
自 交 通 环境 的 视觉 信息 有 效 性 来 克服 轰 驶 员 的 知觉 局 限 性 。 


17.1.1 识别 问题 


在 驾驶 操作 中 ， 驾 驶 员 执 行车 道 变化 、 左 右 转 、 跟 车 和 超车 时 ， 重 要 的 是 要 避 
免 碰 撞 。 有 文献 提出 超车 过 程 太 复杂 ， 且 很 容易 造成 人 为 失误 '"”。 虽 然 研 究 表 明 ， 
超车 是 一 个 复杂 的 任务 ， 对 此 操作 进行 指挥 的 视觉 信息 仍 是 未 知 的。 过 去 的 研究 表 
明 ， 驾 驶 员 使 用 不 同 的 策略 来 完成 超车 任务 "i 。 同 时 ,文献 也 指出 ， 驾 驶 员 错 误 
地 判断 安全 超车 所 需要 的 时 间 差 距 ” 。 另 外 ， 鸭 驶 员 通 常 不 能 准确 判断 超车 所 需 
HERU? 。 简 言 之 ， 首 先 ， 重 要 的 是 要 清楚 地 识别 驾驶 员 在 超车 过 程 中 使 用 
的 视觉 信息 的 来 源 。 其 次 ， 重 要 的 是 检测 信息 来 源 的 有 效 性 。 如 果 视 觉 信息 的 有 效 
性 很 差 ， 那 么 将 造成 随后 知觉 判断 的 质量 较 差 。 相 反 ， 如 果 视 觉 信 息 的 有 效 性 很 
好 ,那么 随后 知觉 判断 的 质量 会 更 好 。DAS 的 重要 性 之 一 就 是 加 强 视觉 信息 的 有 
效 性 。 















































17.2 在 超车 过 程 中 驾驶 员 依 赖 的 视觉 信息 


最 近 的 一 项 研究 报道 ， 轰 驶 员 决 定 超车 后 ， 他 们 将 判断 与 第 一 个 迎面 而 来 的 汽 
车 之 间 的 距离 是 否 足够 来 开始 进行 操作 。 男 外 ， 由 于 自己 的 车 、 前 面 的 车 以 及 迎面 
而 来 的 车 都 是 在 运动 中 ， 因 此 在 开始 汽车 超车 动作 之 前 或 通过 时 ， 感 知 这 些 车 辆 的 
速度 和 接触 时 间 (TTC) 信息 是 十 分 必要 的 3。 此 外 ， 迎 面 而 来 的 汽车 可 能 会 加 
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速 或 减速 。 因 此 ， 驾 驶 员 必 须 准确 判断 迎面 而 来 的 汽车 速度 的 变化 率 。 总 之 ， 判 断 
距离 、 速 度 、 加 速 、 减 速 和 TTC 是 超车 动作 中 的 关键 。 不 需 表 明 也 可 知道 ， 超 车 
动作 更 多 是 对 多 驶 员 感 性 方面 的 需求 ， 因 为 驾驶 员 需 要 对 前 车 以 及 迎面 而 来 的 车 都 
要 做 判断 。 接 下 来 ， 检 查 该 视觉 信息 的 有 效 性 。 


17.2.1 时 间 冲 突 


Lee (1976) 指出 ,与 一 个 即将 接近 的 车 辆 发 生 碰 撞 的 时 间 ， 是 由 视角 范围 
(也 就 是 由 对 面 来 车 的 前 保险 杠 与 驾驶 员 眼 睛 之 间 的 视觉 角度 ) 与 视角 范围 变化 率 
的 比值 通过 视觉 来 决定 的 。 他 把 这 个 量 定义 为 tw， 他 提出 人 类 知觉 系统 对 于 tau 
是 很 敏感 的 。 然 而 ，tau 有 一 个 重要 的 限制 ， 是 间接 地 由 人 类 视觉 系统 在 时 空 分 辩 
率 方面 的 限制 而 引起 的 ?2 。 具 体 来 说 ， 能 够 检测 到 即将 来 临 物 体 的 光学 尺寸 (或 
眼睛 的 视觉 角度 ) 的 阔 值 是 0.017"55 或 0. 172°7 s", tau. 只 有 在 光学 膨胀 率 超 过 
BJA (Gray 和 Regan, 1998) 时 才 有 效 。 由 于 在 人 类 知觉 系统 中 的 这 种 限制 ， 当 实 
际 上 的 TTC 相对 较 高 时 ， 驾 驶 员 不 能 准确 判断 即将 来 临 车 辆 的 TTC。 然 而 ， 在 一 
个 超车 过 程 中 ， 迎 面 而 来 的 汽车 的 TTC 可 能 会 相对 比较 大 ， 有 时 候 约 为 6st21 。 


17.2.2 与 迎面 而 来 汽车 之 间 的 距离 


眼睛 聚 散 的 角度 可 以 提供 有 关于 固定 物体 的 距离 信息 ， 但 这 样 的 信息 来 源 只 
当 与 固定 物体 离 自 己 不 到 10m 时 才 是 准确 的 "。 然 而 在 超车 过 程 中 ， 迎 面 而 来 的 
汽车 距 驾 驶 员 可 能 会 超过 100mt21 。 且 视觉 信息 不 同 来 源 的 有 效 性 随 距离 的 变化 而 
变化 1。 在 远 的 距离 ， 对 迎面 而 来 车 辆 的 光学 扩展 率 ( 即 驾驶 员 了 眼睛 的 视角 的 变 
化 率 ) 和 taw， 它 们 确定 了 与 迎面 而 来 车 辆 的 TIC， 它 们 的 值 可 能 低 于 阔 值 。 


17.2.3 速度 迎面 而 来 汽车 的 速度 


由 于 这 种 人 类 视觉 系统 的 时 空 分 辨 率 的 局 限 性 ,与 尺寸 较 大 的 车 辆 或 者 接近 速 
度 较 快 相 比 ， 在 感知 矿 才 较 小 车 辆 的 速度 ， 或 者 车 辆 接近 的 速度 非常 缓慢 时 ， 驾 驶 
员 将 有 更 多 的 困难 。 这 是 因为 相 比 那些 尺寸 大 或 者 行动 快 的 车 辆 ， 对 于 尺寸 小 或 者 
行动 缓慢 的 车 辆 ， 其 光学 膨胀 率 也 较 小 ”| 。 


17.2.4 加 速度 






































研究 表明 ， 人 类 的 知觉 系统 是 无 法 准确 感知 加 速 运 动 的 * 沁 。 具 体 地 说 ， 研 
究 表 明 对 进行 加 速 的 汽车 ， 观 察 者 高 估 了 TIC, M TIC 估计 过 高 ， 意 味 着 驾驶 
员 判 断 与 一 个 接近 车 辆 相 撞 的 时 间 远 远 晚 于 与 他 们 实际 相 撞 的 时 间 。 这 样 过 高 估计 
TT 在 开车 时 可 能 是 致命 的 。 
17.2.5 靠近 的 相对 方向 


Gray 等 人 (2004) 报道 ， 在 观察 者 和 靠近 对 象 朝 相 反 的 方向 运动 时 ， 感 知 的 
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BEBO 。 他 们 提出 ， 这 将 导致 TTC 的 错误 判断 。 这 样 的 错误 判断 在 超车 过 程 
中 的 影响 是 至 关 重要 的 ， 因 为 在 实际 的 超车 过 程 中 ， 本 车 和 迎面 而 来 的 汽车 通常 就 
是 在 相反 的 方向 移动 的 。 


17.2.6 运动 适应 


有 研究 报告 了 在 驾驶 过 程 中 所 涉及 的 运动 适应 对 某 些 判 断 的 影响 ， 特 别 是 
在 超车 过 程 中 的 影响 和 。 在 驾驶 模拟 器 中 基于 驾驶 员 表现 的 研究 表明 ， 在 农村 公 
路 上 开车 时 ， 臣 甬 员 长 时 间 在 一 个 本 车 和 前 车 之 间 差 距 不 变 的 情形 下 ， 对 于 检测 本 
车 与 前 车 或 迎面 而 来 的 汽车 距离 变化 之 间 的 阔 值 是 很 高 的 吓 ; 。 换 一 种 说 法 ， 在 乡 
村 公路 超车 时 ， 驾 驶 员 需 要 更 长 的 时 间 来 检测 它们 与 对 面 来 车 之 间距 离 的 变化 。 从 
安全 的 角度 来 看 ， 这 是 很 危险 的 。 与 这 些 研 究 相 对 应 ，Hegeman 等 人 (2005) 报 
38, 在 荷兰 大 多 数 的 超车 事故 出 现在 农村 道路 上 '”] 。 

总 之 ,在 使 用 人 类 知觉 系统 来 感知 距离 和 运动 中 存在 一 些 限制 。 特 定 的 交通 条 
件 下 这 样 的 限制 变 得 非常 重要 ， 可 能 会 导致 对 迎面 而 来 的 汽车 距离 、 速 度 和 TTC 
的 错误 判断 。 在 这 一 点 上 ， 为 更 好 地 理解 超车 的 复杂 性 以 及 对 轰 驶 员 的 额外 要 求 ， 
将 超车 任务 与 一 个 和 超车 任务 密切 相关 的 驾驶 任务 ,例如 被 广泛 研究 的 跟 车 任务 相 
比较 ， 是 非常 有 利 的 。 下 面 将 进行 这 种 比较 。 


























17.3 超车 和 跟 车 任务 之 间 的 主要 差异 





在 超车 期 间 不 准确 的 判断 可 能 导致 超车 事故 。 同 样 的 ， 跟 车 任务 时 不 准确 的 判 
断 可 以 导致 追尾 事故 。25% 的 道路 交通 事故 是 追尾 事故 2” 。 因 此 ， 一 些 学 者 研究 
了 感性 判断 的 类 型 ， 这 在 安全 跟 车 中 是 至 关 重 要 的 。 例 如 ， 研 究 分 析 了 减速 的 判 
断 "…“ “2 、 两 车 之 间距 离 的 评估 以 及 在 跟 车 中 TTC. BO AL Ignem mm aem, 
有 趣 的 是 ， 所 有 在 安全 跟 车 中 至 关 重 要 的 判断 ， 在 超车 中 同样 非常 重要 。 然 而 ， 超 
车 和 跟 车 之 间 存 在 3 个 具体 差异 ， 这 些 差异 使 超车 过 程 一 般 来 说 更 复杂 。 

第 一 ， 在 超车 时 ， 各 驶 员 必 须 判断 前 面 的 汽车 (要 超越 的 汽车 ) 和 迎面 而 来 
的 汽车 的 运动 。 相 反 ， 在 一 个 车 辆 跟随 任务 中 ， 各 驶 员 通 常 只 需 判 断 前 面 的 汽车 。 
因此 ， 超 车 的 感性 需求 可 能 高 于 跟 车 任务 。 第 二 ， 驾 驶 员 注 意 力 分 散 是 造成 与 前 车 
追尾 事故 的 原因 。 换 句 话 说， 通常 发 生 的 追尾 事故 因为 驾驶 员 在 交通 中 长 时 间 的 注 
意 力 不 集 中 “1 。 相 比 之 下 ,在 超车 过 程 中 ， 驾 驶 员 通 常 在 道路 上 注意 力 非常 集中 。 
因此 ， 在 超车 过 程 中 不 准确 的 判断 主要 是 由 于 人 们 处 理 运动 物体 时 的 知觉 限制 ， 而 
非 注意 力 不 集 中 。 第 三 ， 当 本 和 车 与 前 车 离 得 很 近 时 ， 追 尾 事故 通常 发 生 在 两 车 之 间 
距离 较 短 的 情况 。 相 比 之 下 ， 一 个 超车 过 程 可 能 发 生 在 当 本 车 与 要 超 的 车 距离 
相当 大 的 情况 。 此 外 ， 在 恶劣 的 各 驶 环境 ， 如 在 雨 、 雪 或 晚上 ， 超 车 动作 对 驾驶 员 
的 感知 要 求 更 高 。 
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总 之 ， 典 型 的 跟 车 任务 与 超车 的 任务 有 关键 的 区 别 。 它 清楚 地 表明 人 类 知觉 系 
统 限 制 所 造成 的 不 准确 判断 在 超车 策略 中 影响 更 大 ， 而 不 是 因为 驾驶 员 没 有 把 注意 
力 放 在 路 上 。 因 此 ,设计 人 员 在 设计 智能 交通 系统 时 ， 需 要 考虑 人 类 知觉 系统 的 限 
制 ， 从 而 能 够 在 这 样 复杂 的 过 程 中 提高 驾驶 员 的 视觉 表现 。 目 前 ， 有 前 方 碰撞 避免 
预警 系统 (FCAWS) 能 帮助 驾驶 员 安 全 跟 车 。 在 接 下 来 的 内 容 中 ， 列 出 了 设计 这 
样 的 FCAWS 中 应 加 以 考虑 的 典型 功能 需求 ， 以 及 利用 这 样 的 系统 来 协助 驾驶 员 完 
成 超车 动作 时 可 能 出 现 的 最 严重 问题 。 


17.3.1 当前 的 前 方 碰撞 避免 预警 系统 


由 于 两 种 操作 类 型 的 不 同 ，FCAWS 是 专门 设计 用 来 辅助 汽车 跟随 的 1， 对 
超车 来 说 可 能 并 不 总 是 有 效 的 。 特 别 地 ， 有 关 使 用 FCAWS 辅助 超车 动作 中 有 3 
个 重大 的 局 限 性 。 第 一 ，FCAWS 通常 只 辅助 检测 一 个 主机 车 辆 的 运动 ， 即 前 方 
汽车 "91 。 然 而 ， 在 一 个 超车 过 程 中 ， 有 两 辆 车 参与 ， 前 车 和 迎面 而 来 的 汽车 。 
第 二 ， 对 一 个 典型 的 FCAWS 的 基本 要 求 是 能 够 发 现在 其 前 方 100m 存在 的 前 
车 '%|。 然 而 ， 在 一 个 超车 过 程 中 ， 迎 面 而 来 的 汽车 可 能 更 远 '*i。 第 三 ， 当 TTC 
与 本 车 达到 一 个 阔 值 时 ，FCAWS 通常 发 出 警告 ， 然 而 该 阔 值 是 相对 较 小 的 ， 例 
如 2sl51。 然 而 ， 一 个 超车 过 程 需要 6sl21 ， 而 先前 的 研究 表明 实际 的 TTC 有 所 增 
加 时 ，TTC 判断 的 准确 性 降低 种] 。 总 之 ， 对 安全 跟 车 过 程 所 考虑 的 典型 功能 需 
求 以 及 在 设计 FCAWS 时 间 值 ， 对 超车 过 程 辅助 来 说 是 不 通用 的 。 因 此 ， 作 为 一 
个 超车 过 程 的 辅助 ，DAS 需要 一 套 独立 的 功能 需求 和 病 值 。 














17.4 ”驾驶 员 辅 助 预 警 系统 


在 超车 过 程 这 一 节 中 ， 定义 了 7 个 功能 需求 ， 在 设计 DAS 以 支持 超车 过 程 中 
作为 准则 加 以 考虑 。 重 要 的 是 ， 在 执行 超车 动作 时 ， 需 要 克服 驾驶 员 感 知 的 局 限 
性 。 同 时 ， 在 这 样 一 个 人 力 自动 交互 中 应 对 人 的 因素 加 以 考虑 。 


17.4.1 在 物体 识别 的 同时 关注 运动 的 人 处理 


大 多 数 的 追尾 事故 发 生 在 驾驶 员 分 心 、 长 时 间 地 不 关注 交通 时 。 因 此 , 用 
来 文 持 安全 跟 车 的 前 方 碰撞 避免 预警 系统 ， 其 设计 通常 关注 对 象 识别 ， 因 为 它 假定 
了 驾驶 员 没 有 关注 交通 的 情形 。 然 而 ， 在 一 个 超车 过 程 中 ， 驾 驶 员 在 这 个 过 程 中 通 
常 都 关注 路 面 的 情况 。 在 这 种 情况 下 ， 是 由 于 人 类 知 感知 系统 对 距离 和 运动 感知 的 
局 限 性 导致 了 不 准确 的 判断 ， 而 不 是 因为 驾驶 员 的 注意 力 不 集中 。 因 此 ，DAS 应 
该 开发 来 克服 这 种 局 限 性 。 
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17.4.2 ”本 车 与 远 距离 车 辆 的 运动 参数 的 检测 能 


当 自 身 与 前 车 距离 较 远 时 ， 人 类 感知 系统 将 无 法 正确 地 感知 车 辆 的 运动 。 然 
而 ,超车 过 程 常 常 在 这 种 距离 下 (如 200m) RAE, 


17.4.3 检测 迎面 来 车 运动 参数 的 能 力 


DAS 必须 能 够 实时 精确 检测 所 有 迎面 而 来 的 车 辆 相对 于 本 车 的 运动 参数 (如 
速度 、 加 速度 、 减 速 、TTC 和 移动 方向 等 ) 。 当 汽车 体积 较 小 、 距 离 较 远 或 缓慢 地 
行驶 时 ， 人 类 的 感知 系统 无 法 准确 地 检测 车 辆 的 光学 膨胀 率 ' 站 。 同 时 ， 知 觉 系 统 
不 能 准确 判断 加 速 运动 ， 特 别 是 当 TTC 大 于 1s 时。 此 外 ， 速 度 精确 度 和 TTC 的 
判断 随 着 迎面 而 来 的 汽车 与 本 车 之 间 相 对 方向 的 变化 而 变化 。 最 后 ， 光 学 膨胀 
REFERE, IEF TTC 的 判断 是 不 精确 的 '*1。 


17.4.4 ”检测 前 车 运动 参数 的 能 


DAS 必须 能 够 实时 精确 检测 前 车 (要 超 的 车 辆 ) 相对 于 本 车 运动 的 所 有 参数 
(如 速度 、 加 速 、 减 速 、 时 间 通 道 和 移动 方向 等 )。 所 有 来 自 功能 要 求 “c” 的 调整 
均 适 用 于 此 处 。 此 外 ,研究 表明 1， 相 比 于 两 个 物体 之 间 相 同 的 参数 (如 与 迎面 
而 来 汽车 的 TTC 和 相对 前 车 的 流失 时 间 ， 这 两 个 正 是 时 间 参 数 ) 的 同步 搜索 ， 人 
类 更 容易 集中 注意 力 到 一 个 对 象 ， 并 对 一 个 特定 的 参数 (如 分 心 的 存在 ) 进行 搜 
R (AW). 。 此 外 ， 参 考 文献 [49] 表明 ， 在 交通 场景 中 当 对 象 的 数量 增加 时 ， 
TTC 的 判断 将 会 受到 影响 。 


17.4.5 DAS 必须 对 车 本 身 物理 的 和 动态 的 能 力 非常 敏感 


DAS 应 该 能 够 持续 感受 并 处 理 本 车 在 给 定 的 一 组 环境 条 件 下 (如 汽车 的 回转 
能 力 ， 在 雨 、 雪 路 面 上 的 摩擦 等 ) 可 能 的 增益 (例如 ， 在 一 个 时 间 和 窗口 可 能 的 加 
速 ) 。 这 些 信息 必须 与 其 他 车 辆 〈 或 对 象 ) 的 动力 特性 同时 处 理 ， 如 同 在 功能 要 求 
“5” 和 “d” 所 提 到 的 那样 。 当 驾驶 员 必 须 处 理 这 些 复 杂 的 信息 并 进行 各 自 的 计算 
时 ， 这 将 大 大 提高 他 们 的 心理 工作 负载 。 然 而 ， 研 究 表明 预警 系统 应 设计 来 减少 轰 
驶 员 的 工作 负载 (Miller 和 Huang2002) 。 

















17.5 在 人 机 自动 化 交互 中 人 的 因素 


驾驶 员 辅 助 系统 是 自动 化 的 系统 ， 考 虑 驾驶 员 的 表现 来 实施 这 样 的 自动 化 系统 
影响 是 很 重要 的 。 根 据 自 动 化 的 Parasuraman- Sheridan- Wickens 模型 + ， 自 动 化 可 
以 分 为 4 个 级 别 : 中 信息 采集 ; @ 信 息 分 析 ; @) 决 定 选择 ;行动 的 实现 。 自 动 化 
在 任何 一 个 或 所 有 的 4 个 水 平均 可 进行 。 然 而 ,一 个 系统 的 完全 自动 化 ( 即 所 有 4 
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个 水 平 ) 的 主要 局 限 是 ， 它 使 得 人 类 只 能 扮演 一 个 监督 的 角色 。 因 此 ， 如 果 系 统 
必须 返回 到 手动 运行 ， 或 者 当 有 一 个 自动 化 出 现 故 障 时 ， 它 会 导致 驾驶 员 状 态 感知 
的 减少 和 工作 负载 的 增加 ”3。 因 此 ， 实 现 自动 化 所 有 4 个 水 平 并 不 总 是 理想 的 。 
考虑 到 这 种 影响 人 类 自动 化 交互 和 提高 驾驶 员 自 动 化 系统 的 整体 性 能 ， 接 下 来 的 两 
个 功能 需求 被 提 了 出 来 。 


17.5.1 决策 选择 阶段 的 自动 化 


功能 需求 “0”” Bl "e" BURA, DAS 应 该 从 信息 采集 到 信息 分 析 阶 段 都 实现 
自动 化 。 此 外 ， 决 定 选 择 阶段 也 应 该 自动 化 。 基 于 现 有 的 交通 条 件 ，DAS 应 提供 
给 驾驶 员 一 个 决定 。 这 样 的 决定 应 该 基于 超车 的 可 能 性 ， 同 时 决定 应 该 以 一 个 有 效 
的 方式 提供 驾驶 员 。 具 体 来 说 ， 基 于 信息 的 分 析 ，DAS 应 该 能 够 确定 它 是 否 可 能 
或 不 可 能 安全 地 完成 超车 过 程 。 让 我 们 考虑 这 样 一 个 场景 ， 在 一 个 下 雨 的 夜晚 ， 本 
车 在 上 坡 。 本 车 开始 超车 行为 ， 移 到 超车 车 道 。 然 而 ， 有 一 个 迎面 而 来 的 汽车 处 于 
下 坡 。 基 于 从 环境 来 的 信息 〈 前 方 车 辆 和 迎面 来 车 的 信息 ) , DAS 计算 出 完成 此 次 
超车 行为 的 时 间 是 8s， 并 且 最 小 速度 为 100km/h。 然 而 ， 基 于 计算 本 车 潜在 的 动力 
和 附加 的 安全 考虑 ，DAS 认定 它 不 能 完成 一 个 安全 的 超车 任务 。 在 分 析 完 成 这 样 
一 个 安全 超车 行为 的 可 能 性 时 ， 应 该 以 一 个 有 效 的 方式 将 所 作出 的 决定 提供 给 驾 
驶 员 。 

对 设计 用 于 超车 行为 的 DAS 而 言 ， 自 动 化 决策 选择 阶段 是 很 重要 的 。 当 驾驶 
员 来 处 理 复杂 的 信息 ， 并 作出 必要 的 计算 和 分 析 时 ， 将 大 大 增加 驾驶 员 心 理 的 工作 
负荷 。 这 可 以 影响 知觉 判断 和 后 续 的 行动 。 同 时 ,根据 现 有 对 运动 知觉 的 研究 ， 它 
对 人 类 判断 完成 一 个 超车 过 程 所 需要 的 理想 加 速度 的 能 力 是 不 清楚 的 。 直 接 可 用 的 
光学 信息 来 感知 理想 的 加 速度 是 非常 复杂 的 ， 并 且 研 究 表明 ， 人 类 的 知觉 系统 可 能 
不 能 进行 这 种 复杂 的 计算 “'”。 因 此 ， 决策 选择 阶段 自动 化 将 是 有 益 的， 这 样 
DAS 可 以 提供 给 驾驶 员 它 的 决定 ， 即 是 否 能 够 安全 进行 超车 。 


17.5.2 提供 一 个 听觉 警告 ,但 不 强加 给 驾驶 员 


对 驾驶 员 来 说 ， 警 告 的 形态 和 类 型 是 很 重要 的 。 和 警告 应 该 是 可 以 听 到 的 ， 同 时 
DAS 不 应 该 把 警告 强加 给 驾驶 员 。 同 时 ， 行 动 实施 阶段 不 应 该 是 自动 的 。 这 个 功 
能 上 的 要 求 有 两 个 具体 原因 。 第 一 ， 在 超车 过 程 中 ， 视 觉 系统 已 经 超 负荷 了 。 在 这 
种 情况 下 ， 一 个 听觉 警告 是 更 有 效 的 ， 且 有 助 于 更 容易 地 获得 驾驶 员 的 注意 力 
(例如 参考 文献 [42] ) 。 第 二 ， 研 究 表明 ， 当 自动 化 把 行动 强加 人 们 时 ， 他 们 本 身 
的 表现 将 退化 (例如 参考 文献 [38] ) 。 因 此 ， 驾 驶 员 总 是 能 够 主动 控制 车 辆 是 很 
重要 的 。DAS 应 该 内 提供 给 驾驶 员 它 所 做 出 的 决定 结果 ， 应 该 是 驾驶 员 最 后 确定 
是 否 接 受 这 个 由 DAS 提供 的 决定 。 
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17.6 设计 DAS 来 克服 驾驶 员 的 知觉 局 限 性 


很 明显 ， 从 以 上 对 超车 行为 的 分 析 可 知 ， 设 计 更 好 的 DAS 时 ， 考 虑 人 类 知觉 
系统 的 局 限 性 是 非常 重要 的 。 当 前 DAS 的 一 个 主要 假设 是 ， 当 驾驶 员 对 交通 环境 
注意 力 不 紧 张 时 ， 换 句 话 说 ， 驾 驶 员 分 心 时 ， 系 统 是 有 帮助 的 。 例 如 ， 有 人 建议 ， 
如 果 轰 驶 员 正 在 考虑 一 个 交通 场景 中 的 潜在 的 问题 时 ， 那 么 警告 是 无 关 紧 要 的 *。 
在 跟 车 时 这 可 能 是 真 的 ， 因 为 前 车 与 驾驶 员 离 得 很 近 。 然 而 ， 在 一 个 超车 过 程 中 ， 
是 警告 变 得 有 效 的 一 个 很 好 的 例子 ， 即 使 这 驶 员 正 在 考虑 交通 场景 中 的 潜在 问题 。 
在 一 个 超车 过 程 中 ， 轰 驶 员 表现 的 退化 主要 是 由 于 驾驶 员 在 处 理 距 离 和 运动 信息 ， 
包括 车 辆 距离 较 远 ， 或 在 以 一 个 相对 较 慢 的 速度 接近 ， 或 车 辆 的 矿 才 很 小 等 方面 能 
力 的 不 足 。 因 此 ,在 设计 更 好 的 DAS 时 ， 考 虑 这 样 的 认 知 局 限 性 是 很 必要 的 。 在 
这 里 ， 提 出 一 个 模型 〈 见 图 17. 1) , 将 有 助 于 设计 更 好 的 DAS。 该 模型 的 主要 贡献 
在 于 强调 这 样 一 个 事实 ， 避 人 免 碰 撞 现 象 主 要 在 于 各 驶 员 能 够 有 效 地 使 用 可 用 的 视觉 
信息 。 如 果 视 觉 信息 是 无 效 的 ， 分 配 再 多 的 注意 力也 不 会 改善 驾驶 员 的 表现 。 因 
此 ，DAS 可 以 显著 增强 视觉 信息 的 有 效 性 ， 这 将 导致 更 好 地 感知 判断 ， 减 少 碰撞 ， 
从 而 增加 驾驶 安全 。 
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图 17.1 设计 驾驶 员 辅助 系统 来 克服 驾驶 员 知觉 局 限 性 的 模型 
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17.7 小结 





全 球 超车 事故 的 数据 表明 ， 这 个 交通 行为 应 该 及 时 被 关注 。 此 外 ， 由 于 人 类 知 
党 系统 的 局 限 性 ， 驾 邓 员 在 进行 超车 过 程 中 的 判断 并 不 总 是 准确 的 ， 因 此 设计 
DAS 可 以 在 这 些 复杂 的 行为 中 帮助 驾驶 员 。 当 前 的 FCAWS 通常 设计 为 追尾 碰撞 


Es 


然而 跟 车 任务 所 涉及 的 视觉 信息 和 环境 特征 与 超车 任务 的 不 同 。 所 以 重要 的 是 要 设 
计 DAS 可 以 在 超车 过 程 中 帮助 驾驶 员 。 另 外 ， 确 定 了 7 个 功能 需求 ， 在 设计 此 类 
DAS 中 是 很 重要 的 考量 。 最 后 ， 为 设计 有 效 的 DAS 提出 了 模型 ， 强 调 克 服 的 人 类 
感知 系统 的 局 限 性 。 

总 之 ,联系 自动 化 的 DAS， 本 章 提 出 的 要 求 考 虑 了 人 类 知觉 系统 的 能 力 、 局 
限 性 以 及 心理 因素 。 未 来 的 研究 应 该 考虑 这 些 功能 如 何 影响 驾驶 员 的 认 知 ， 即 情况 
意识 、 人 类 自动 化 交互 以 及 驾驶 员 的 工作 负载 。 
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摘要 :本章 讨 论 使 用 多 通道 特征 跟踪 驾驶 员 注 意 力 分 散 的 研究 成 果 ， 使 用 了 一 
辆 配备 有 不 同 传感器 的 车 来 收集 实际 行驶 条 件 下 的 数据 库 。 记 录 期 间 ， 驾 驶 员 被 要 
求 执行 常见 的 辅助 任务 ， 如 拨打 一 个 电话 、 与 另 一 乘客 通话 以 及 改变 电台 等 。 我 们 
分 析 了 当 驾 驶 员 完 成 这 些 辅助 任务 时 ， 由 多 通道 特征 所 观察 到 的 差异 。 所 研究 的 特 
征 是 从 控制 器 局 域 网 总 线 (CAN 总 线 )、 面 对 驾驶 员 的 相机 和 送 话 器 中 提取 出 来 
的 。 这 些 特性 是 用 来 预测 驾驶 员 注 意 力 分 散 程 度 的 。 所 提出 的 回归 模型 的 输出 与 人 
类 的 主观 评估 (p-0.782) 有 很 高 的 相关 性 ， 从 而 验证 了 我 们 的 方法 。 

关键 词 : EEA; CAN 总 线 数据 ; 注意 力 分 散 ; 驾驶 员 行 为 ; 驾驶 员 注 意 力 
Jk 头 部 姿 执 估计 ; 多 通道 特征 分 析 ; 真实 交通 驾驶 记录 ; 辅助 任务 ; 对 注意 力 
分 散 的 主观 评价 


18.1 简介 


随 着 感知 技术 与 信号 处 理 方面 的 发 展 ， 车 内 系统 有 了 更 多 的 机 会 来 提高 道路 安 
Zo 一 个 重要 的 方向 就 是 监督 驾驶 员 可 能 导致 车 祸 的 行为 。 根 据 美 国 高 速 公路 安全 
管理 局 (NHTSA) 的 报告 ， 警 方 报告 的 事故 中 ，25% 以 上 与 驾驶 员 注 意 力 分 散 有 
3X. *100- Car Naturalistic Driving Study (100 个 汽车 自然 行驶 状态 下 的 驾驶 行为 
研究 )” 支 持 了 这 一 事实 ， 根据 这 一 研究 的 结论 ， 超 过 78% 的 碰撞 和 65% 的 近 距 离 
碰撞 是 由 于 驾驶 员 的 注意 力 不 集 中 造成 的 中 。 这 些 统计 数据 是 不 奇怪 的 ， 因 为 当 
一 辆 车 移动 时 ， 有 30% 的 时 间 驾 驶 员 要 参与 辅助 任务 ,这些 都 可 能 引起 注意 力 分 
散 ” 。 随 着 新 的 车 载 技 术 的 发 展 ， 这 些 数字 预计 将 增加 。 因 此 ， 识 别 和 开发 可 行 
的 检测 系统 来 检测 到 驾驶 员 的 注意 力 分 散 并 给 予 警告 ， 是 很 重要 的 。 这 些 系 统 将 在 
防止 事故 和 提高 整体 道路 安全 方面 扮演 重要 角色 。 

注意 力 分 散会 影响 驾 台 员 的 视觉 、 认 知 、 听 觉 、 心 理 和 身体 功能 。 注 意 力 
分 散 被 澳大利亚 道路 安全 委员 会 定义 为 “从 主要 的 敬 驶 任务 中 自觉 或 不 自觉 地 
转移 注意 力 ， 与 其 他 方面 (来自 酒精 、 毒 品 、 疲 劳 或 医学 条 件 ) 的 损害 无 
关 。”' 。 在 这 个 普遍 接受 的 定义 中 ， 驾 驶 员 参 与 的 是 与 主 驾驶 任务 不 相干 的 
额外 活动 ， 其 中 包括 与 乘客 交谈 、 关 注 事件 或 对 象 以 及 操纵 车 内 技术 等 。 结 
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果 ， 轰 驶 员 减 少 了 对 周围 环境 的 感知 ， 从 而 影响 了 自身 的 决策 ， 增 加 了 风险 事 
故 发 生 的 可 能 性 。 

我 们 一 直 在 结合 不 同 的 形式 ， 包 括 控制 器 局 域 网 总 线 (CAN 总线) 数据 、 视 
频 摄像 头 和 送 话 器 等 ， 来 检测 驾驶 员 的 疏忽 5 。 我 们 的 长 期 目标 是 开发 一 种 多 模 
式 框 架 ， 可 以 通过 使 用 这 些 非 插 入 式 传 感 右 ( 见 图 18. 1) ， 来 量化 驾驶 员 的 注意 力 
水 平 。 本 章 不 是 依靠 模拟 ， 而 是 对 驾驶 员 在 实际 场景 中 使 用 UTDriver 平台 一 一 装 
备 了 多 个 传感器 的 汽车 ， 基 于 所 得 到 的 录音 来 进行 研究 '"。 首 先 ， 我们 研究 了 
所 有 形式 下 观察 到 的 变化 ， 此 时 轰 驶 员 会 进行 一 般 的 辅助 任务 ， 如 导航 系统 、 收 
音 机 和 手机 等 。 然 后 ， 我 们 提出 了 一 个 基于 相关 多 模型 特征 的 回归 模型 ， 来 预测 
驾驶 员 注 意 力 分 散 。 结 果 表 明 ， 所 提出 系统 的 输出 与 人 类 的 主观 评价 相符 合 。 























到 18.1 使 用 多 通道 信息 来 监控 驾驶 员 行为 的 系统 


本 章 讨论 了 使 用 多 个 传 感 技术 来 检测 驾驶 员 注 意 力 分 散 。 它 描述 了 先前 的 研究 
和 我 们 在 该 领域 的 贡献 。 请 注意 ,我们 只 关注 驾驶 员 进 行 辅 助 任务 时 产生 的 注意 力 
不 集中 。 我 们 不 关注 酒精 、 疲 劳 或 药物 等 引起 的 分 心 或 损害 *”]。 

本 章 结构 安排 如 下 : 18.2 节 给 出 了 一 个 与 当前 研究 工作 相关 的 以 前 所 进行 工 
作 的 简要 概述 ; 18.3 节 描 述 了 用 于 收集 数据 库 的 协议 ; 18.4 节 提 出 主观 评估 ,来 
量化 人 们 分 散 注意 力 的 行为 ; 18.5 WEIT H CAN 总 线 信号 、 一 个 正面 摄像 头 和 
送 话 器 提取 出 特征 的 分 析 ， 我 们 研究 了 当 和 驾驶 员 进 行 辅助 任务 时 所 观察 到 的 行为 变 
化 ; 18.6 节 证 明了 多 通道 特征 可 以 用 来 识别 从 事 辅 助 任 务 的 驾驶 员 ， 并 推断 驾驶 
员 的 注意 力 分 散 程度 ; 18.7 节 总 结 并 讨论 未 来 的 发 展 方向 。 











18.2 相关 工作 


几 项 研究 已 经 试图 检测 鸭 驶 员 的 注意 力 分 散 。 这 些 研究 提出 不 同 的 传 感 技术 ， 
包括 控制 器 局 域 网 总 线 (CAN 总 线 ) BOE 、 面 对 驾驶 员 的 摄像 机 、 送 
话 器 ”和 捕捉 生物 信号 的 插入 式 传感器 ”“”“ 。 一 些 研 究 分析 了 从 真正 的 驾驶 场 
景 得 到 的 数据 ”" ， 而 另 一 些 则 是 使 用 了 汽车 模拟 器 "…'”” 。 在 分 析 中 所 考虑 的 
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辅助 任务 也 不 相同 。 巴 区 等 人 提出 了 一 个 详尽 的 100 篇 论文 的 综述 ， 已 考虑 到 理 
解 、 测 量 和 评估 驾驶 员 注 意 力 等 问题 ”。 本 节 简 要 概述 了 当前 检测 驾驶 员 注 意 力 
分 散 的 方法 。 


18.2.1 形式 


来 源 于 车 辆 如 速度 、 加 速度 和 方向 盘 转角 等 特征 ， 对 于 评估 驾驶 员 的 行为 是 很 
^H fring 00.927795 RSET RT PLA. CAN 总 线 数据 中 提取 。Sathyanarayana 等 人 
使 用 CAN 总 线 信和 号 来 模型 驾驶 员 的 行为 2 。 他 们 提取 方向 盘 角 、 汽 油 和 制 动 踏板 
压力 等 因素 。 这 些 信息 被 用 来 检测 驾驶 动作 如 转向 、 停 车 以 及 车 道 变化 等 。 在 进行 
行为 识别 之 后 ， 使 用 与 驾驶 员 相 关 的 高 斯 混合 模型 一 通用 背景 模型 ( GMM- UBM) 
进行 分 心 识 别 。 但 是 ， 访 问 CAN 总 线 信 息 并 不 总 是 可 行 的 ， 因 为 汽车 制造 商 保护 
这 些 信 息 。 在 研究 中 使 用 汽车 模拟 器 ， 访 问 这 些 信息 就 很 容易 。 这 些 接口 通常 提供 
关于 汽车 的 详细 信息 。 例 如 ，Tango 和 Botta 使 用 如 方向 盘 角 、 横 向 位 置 、 横 向 
加 速度 和 速度 等 特征 ， 来 预测 主机 车 辆 驾驶 员 的 反应 时 间 '*” 。 基 于 其 他 特征 ， 
liang 等 人 使 用 方向 盘 的 位 置 、 转 向 误差 和 车 道 位 置 等 来 评估 认 知 的 注意 力 分 
HEU. Ersal 等 人 建立 了 一 个 径 向 基底 类 神经 网 络 模型 来 描述 正常 驾驶 行 
Ty US! 。 所 提出 的 系统 使 用 来 自 于 踏板 位 置 的 特征 。 他 们 用 正常 模型 来 识别 当 
驾驶 员 进 行 辅助 任务 时 行为 的 变化 。 同 样 ，Yang 等 人 使 用 GPS 信号 来 近似 从 
CAN 总 线 提取 的 信息 ， 如 速度 和 方向 盘 角 等 信号 。 他 们 使 用 计算 机 模拟 进行 
TH, 

摄像 机 被 用 来 检测 和 跟踪 驾驶 员 的 注意 力 分 散 。 几 项 研究 试图 从 驾驶 员 面 前 的 
相机 推断 出 驾驶 员 的 头 部 姿势 / 眼 瞪 的 运动 "中 。Linag 等 人 表明 ， 眼 球 运动 和 
驾驶 性 能 度量 (如 方向 盘 的 位 置 、 车 道 位 置 ) 对 于 检测 认 知 注意 力 分 散 是 十 分 有 
用 的 5 。 他 们 提出 了 一 个 分 类 器 ， 使 用 支持 矢量 机 (SVM) 来 训练 ， 达 到 81. 1% 
的 平均 准确 性 。Su 等 人 提出 了 一 个 简单 的 方法 ， 使 用 眼 瞪 运动 和 面部 取向 来 监控 
驾驶 员 注 意 力 不 集 中 :9 。 他 们 使 用 一 个 低 成 本 的 CCD 摄像 机 安装 在 汽车 仪表 板 。 
Bergasa 等 人 也 认为 眼 瞪 运动 和 头 部 姿势 可 以 用 来 检测 疲劳 "] 。 他 们 通过 融合 模糊 
分 类 器 ， 来 估计 眼睛 闭合 百分比 (PERCLOS) 、 眼 睛 闭合 时 间 、 眶 眼 时 间 频 率 、 脸 
的 位 置 、 固 定 的 目光 和 点 头 频 率 等 。 除 了 头 部 旋转 ，Kutila 等 人 还 使 用 驾驶 员 的 注 
视 和 车 道 跟 踪 数 据 来 检测 视觉 和 认 知 负载 种; 。 他 们 用 立体 相机 系统 来 估计 头 部 和 
凝视 特征 。 在 这 个 领域 中 ， 在 现实 的 驾驶 环境 ， 由 于 存在 照明 变化 ， 处 理 视频 是 一 
个 重要 的 挑战 。 幸 运 的 是 ， 计 算 机 视觉 的 进步 已 使 鲁 棒 跟 踪 算 法 变 得 很 有 效 且 适合 
FERRARO, WP , Bergasa SS ABSE2ESEH], ZL Ab RA BA aR nT 以 用 来 降低 照明 中 
Bg 2E EU S 

其 他 的 研究 已 经 考虑 了 生理 信号 ， 即 与 驾驶 员工 作 负载 、 注 意 力 和 疲劳 有 关 的 
fas?! | ERAREMA P, AH (EEG) 是 主要 和 最 常用 的 方法 :2 。 
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Putze 等 人 使 用 了 多 个 生物 信号 ， 如 皮肤 电导 (SC) 、 容 积 描记 (PPG)、 呼 吸 和 脑 
HAJUS] | Damousis 和 Tzovaras 基于 眼 电 图 (EOG) ， 提 出 一 个 模糊 融合 系统 来 检 
测 和 提醒 昏 异 欲 睡 的 驾驶 员 :] 。 他 们 使 用 这 个 信号 来 推断 不 同 的 眼 瞪 活动 指标 作 
为 特征 。Lin 等 人 利用 脑 电 图 来 检测 睡意 :5 。Sathyanarayana 等 人 从 CAN 总 线 中 提 
取信 息 ， 同 时 利用 身体 传感器 〈 加 速度 计 、 Ee a *5 b D TE X JJ AY oP C 
程度 。 他 们 将 身体 传感器 放置 在 驾驶 员 的 头 和 腿 上 。 驾 驶 员 也 被 相机 记录 着 ， 该 记 
录用 于 手动 或 自动 地 将 资料 库 分 制 成 为 正常 和 任务 条 件 。 他 们 报道 的 用 k- NN 分 类 
需 检 测 注 意 力 分 散 程度 ， 其 精确 度 达 到 了 90% 以 上 。 


18.2.2 引起 视觉 和 认 知 的 分 心 


不 同 的 方法 已 经 被 用 来 诱导 视觉 和 认 知 的 分 心 。 他 们 的 目标 是 增加 驾驶 员 的 工 
作 量 ， 从 而 来 影响 主 驾 驶 任务 。 因 此 ， 这 些 录音 也 包括 存在 注意 力 分 散 行 为 的 
样本 。 

最 常见 的 用 来 诱导 认 知 分 心 的 方法 ,包括 解 决 数学 问题 "3 、 与 另 一 位 乘 
客 交 谈 … 2” 以 及 把 注意 力 放 在 需要 认 知 的 活动 上 (例如 查看 股市 )” 。 对 于 视觉 
分 心 ， 常 见 的 技术 是 “查看 并 发 现 ”任务 2 、 操 作 设备 〈( 如 和 触摸屏、 手机 和 
GPS) “5 以 及 阅读 数字 等 入 。 在 我 们 的 工作 中 ， 感 兴趣 的 是 分 析 当 驾驶 员 在 进行 
辅助 任务 时 的 行为 表现 ， 这 些 在 实际 各 驶 场景 中 是 常见 的 。 


18.2.3 ”驾驶 平台 


Bach 等 人 报道 ， 在 这 个 研究 领域 的 大 部 分 研究 已 考虑 了 来 自 汽车 模拟 器 的 记 
K ( 约 占 他 们 综述 中 提 及 研究 的 51% ) :9 。 在 很 多 情况 下 ， 使 用 模拟 器 是 惟一 可 
行 且 安 全 的 方法 。 例 如 ， 进 行 旨 在 检测 疲劳 的 研究 通常 就 是 在 实验 室 进 行 的 5 。 
作为 一 个 例外 ，Bergasa 等 人 在 实际 驾驶 状态 下 研究 了 驾驶 员 的 疲劳 状况 。 但 是 ， 
受 试 者 被 要 求 模 拟 异 异 欲 睡 的 行为 '" 。 使 用 同样 生理 信和 号 时 ， 汽 车 模拟 器 可 以 正 
常 工作 52352690 。 其 中 的 一 些 信 号 在 实 车 上 是 很 难 收集 的 。 同 时 ， 插 和 人 式 的 传感器 
使 这 种 方法 不 太 适 合 于 现实 世界 的 驾驶 场景 。 

一 些 研究 已 经 使 用 来 自 现实 道路 的 汽车 记录 中 。 鉴 于 这 个 目的 ， 使 用 由 
插入 式 和 非 插 入 式 传 感 器 组 成 的 数据 采集 系统 ， 设 计 了 不 同 的 汽车 平台 ， 在 实际 的 
驾驶 场景 来 收集 驾驶 员 的 行为 。 同 样 的 例子 包括 Argos! | UYANIK?” 和 
UTDrive "(本 研究 使 用 UTDrive 平台 )。 这 些 汽车 将 提供 更 实际 的 数据 来 研究 驾 
驶 行为 。 




































































18.3 ”在 实际 道路 条 件 下 记录 驾驶 员 





我 们 工作 的 范围 是 ， 使 用 多 通道 传感器 在 真正 的 驾驶 条 件 下 跟踪 驾驶 员 的 行 
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为 。 这 个 需求 意味 着 这 项 研究 不 能 依赖 于 基于 驾驶 模拟 器 的 录音 。 因 此 ， 在 德 克 萨 
斯 大 学 达拉斯 分 校 (UTD) 的 主 校区 附近 的 真实 道路 上 ， 我 们 记录 了 试验 人 员 轰 
Wh UTDrive 平台 的 驾驶 行为 。UTDrive 车 是 一 款 2006 丰田 RAV4， 装 备 有 数据 采集 
系统 和 多 个 包括 摄像 机 和 送 话 器 阵列 等 传感器 ( 见 图 18. 2a) 。 这 个 系统 记录 了 
CAN 总 线 数据 ， 提 供 了 有 关 汽 车 信息 ， 如 制 动 、 汽 油 、 加 速度 、 车 辆 速度 和 方向 
盘 角度 等 。 一 个 正面 相机 (PBC-700H) 面 对 驾 驶 员 ， 被 放置 在 仪表 板 方向 盘 上 
( 见 图 18.2 b), ， 以 320 x240 的 分 状 率 30 帧 /s Kids, ERE T ATA DA READ 
表情 和 头 部 取向 的 有 价值 信息 。 还 有 一 个 照相 机 是 面 对 前 面 的 路 的 ， 以 320 x 240 
的 分 辨 率 15 帧 /s 来 记录 。 





















































图 18.2 UTDrive 汽车 和 传感器 的 设置 
a) UTDrive b) 设置 





虽然 在 我 们 的 工作 中 ， 没 有 使 用 这 台 相 机 ， 但 它 能 够 提供 用 于 车 道 跟 踊 的 重要 
信息 "3。 这 些 信息 同时 被 存储 在 一 个 Dewetron 计算 机 中 。 另 外 ， 一 个 用 于 试验 
的 GPS 被 放置 在 前 挡 风 玻璃 的 中 心 上 。 在 干燥 、 光 照 好 的 条 件 下 收集 数据 库 ， 以 
减少 研究 中 环境 的 影响 。 读 者 可 参考 参考 文献 [7] 来 查看 关于 UTDrive 项 目 更 多 
的 详情 。 

在 我 们 的 研究 中 ， 感 兴趣 的 是 对 当 轰 驶 员 进 行 辅助 任务 时 所 观察 到 的 行为 进行 
分 析 。 我 们 把 包括 常见 的 活动 如 调 电 台 、 聊 天 、 通 过 手机 操作 一 个 GPS 以 及 与 乘 
客 聊 天 等 作为 辅助 任务 来 研究 。 当 然 还 有 其 他 常见 辅助 任务 ， 比 如 发 短信 、 吃 东 
西 、 喝 水 、 化 妆 以 及 吸烟 等 。 

一 个 多 通道 数据 库 收集 了 来 自 20 个 试验 者 的 数据 ， 这 些 实验 者 包括 大 学 学 生 
和 员工 。 他 们 被 要 求 驱 动 UTDriver 汽车 ， 遵循 如 图 18.3 描述 的 预定 义 的 5. 6mile 
路 线 来 行 怠 。 这 条 路 线 包括 许多 交通 灯 、 停 车 标志 、 拥 挤 的 和 通过 率 低 的 交通 区 、 
居民 区 和 学 校区 等 。 每 人 完成 这 个 路 线 两 次 (12 ~16min/ 圈 )。 

在 第 一 圈 ， 驾 驶 员 被 要 求 按 顺 序 执行 常见 的 任务 ， 如 图 18.3 描述 。 第 一 
个 任务 对 应 改变 内 置 的 汽车 收音 机 电台 ( 见 图 18. 3 中 的 线路 A)。 第 二 个 任务 
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需要 驾驶 员 输 入 给 GPS 一 个 有 具体 的 预先 设 定 的 地 址 ， 然 后 遵循 指令 到 达 目 的 
地 ( 见 图 18.3 中 的 路 线 B) 。 对 数据 的 初步 分 析 显 示 ， 在 操作 和 跟随 GPS 两 

个 情景 中 ， 驾 驶 员 行 为 是 不 同 的 。 因 此 ， 我们 把 这 个 任务 细 分 为 两 种 。 之 后 ， 
ee eerie te oe een em 
18.3 中 的 路 线 C) 。 与 所 观察 到 的 GPS 任务 类 似 ， 我 们 也 把 这 个 任务 分 为 操作 
和 使 用 手机 讲话 。 注 意 ， 在 我 们 进行 录制 时 ， 德 克 萨 斯 州 是 允许 驾驶 员 使 用 手 
机 的 。 























~ 一 全 一 "^ 


图 18.3 用 于 记录 的 路 线 (5. 6mile 长 ， 实 验 者 开 两 圈 。 在 第 一 圈 ， 实 验 者 按照 任 

务 执行 顺序 ， 先 进行 收音 机 任务 ， 最 后 进行 手机 通话 任务 。 在 第 二 圈 ， 实 验 者 按 

同样 的 路 线 开 车 ， 但 不 执行 任何 任务 。 第 二 圈 只 涉及 正常 的 驾驶 ， 没 有 执行 任何 

前 面 提 到 的 任务 ， 这 作为 一 个 正常 的 参考 。 因 为 用 于 正常 和 任务 两 种 条 件 的 路 线 
是 同样 的 ， 所 以 我 们 的 分 析 很 少 依赖 于 选 定 的 道路 ) 






































在 这 之 后 ， 一 个 乘客 从 我 们 随机 选择 的 一 些 图 片 中 展示 一 张 ， 要 求 驾驶 员 来 描 
述 这 些 图 片 〈 见 图 18.3 中 的 路 线 D)。 这 个 任务 的 目的 是 收集 近似 (可 能 有 点 奔 
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IK) 由 广告 牌 、 标 牌 和 商店 等 引起 分 心 的 数据 。 最 后 一 项 任务 是 芝 驶 员 和 乘客 进 
行 自 由 交谈 ， 问 一 些 一 般 性 的 问题 〈 见 图 18.3 中 的 路 线 玉 ) 。 将 手机 和 GPS 任务 
任务 细 分 后 ， 我 们 的 数据 库 包 括 以 下 7 个 任务 : 无 线 电 、GPS 操作 、GPS 跟随 、 电 
话 操作 、 电 话 交 谈 、 图 片 和 对 话 。 


18.4 评估 驾驶 员 的 分 心 


在 收集 数据 库 之 后 ， 第 一 个 研究 问题 就 是 评估 驾驶 员 在 完成 所 选 定 辅助 任务 时 
的 注意 力 分 散 程度 '9 。 对 训练 和 测试 系统 来 说 ， 为 驾驶 员 定 义 基 准 是 检测 注意 力 
分 散 的 一 个 至 关 重 要 的 问题 ， 其 目的 是 识别 不 集中 精力 的 驾驶 员 。 然 而 ， 因 为 不 同 
的 癌 驶 室内 行为 都 可 能 对 驾驶 员 造 成 视觉 、 听 觉 、 心 理 、 认 知 和 物理 的 分 心 ， 所 以 
这 是 一 个 很 不 同一 般 的 任务 。 

作为 第 一 个 模拟 ， 我 们 进行 了 感知 模拟 ， 来 评估 驾驶 员 的 注意 力 分 散 程度 。 一 
个 图 形 用 户 界 面 (GUI) 是 专门 为 该 测试 提供 主观 评价 的 〈 见 图 18.4)。 这 个 GUI 
人 允许 评价 者 观看 从 正面 相机 提取 到 的 视频 。 他 们 可 以 评价 驾驶 员 的 注意 力 分 散 程度 
为 1 (注意 力 很 集中 ) ~5 (注意 力 很 分 散 ) 这 个 范围 。 注 意 ,， 评 佑 者 应 该 对 视觉 
分 心 的 识别 精确 度 很 高 。 然 而 ， 他 们 可 能 无 法 评估 更 具 挑战 性 的 其 他 类 型 的 分 心 。 
对 认 知 的 量化 和 心理 的 分 心 仍然 是 很 有 挑战 的 问题 。 

数据 库 包含 了 超过 7h 的 数据 。 然 而 ， 我 们 决定 只 评估 资料 库 的 一 部 分 ， 
减少 所 需 的 时 间 和 资源 。 资 料 库 被 自动 地 分 成 5s 的 视频 。 对 于 每 个 驾驶 员 ， 
任务 中 随机 选择 3 个 视频 。 此 外 ， 我 们 也 把 正常 状态 下 驾 uu 5 
此 ， 我 们 选择 480 个 5s 的 视频 来 进行 评估 (3 个 视频 x8 个 条 件 x 20 个 驾驶 员 = 
480) 。9 名 学 生 参 加 了 这 个 主观 实验 ， 他 们 只 参与 了 160 个 视频 的 评估 (1 个 视 
频 x8 个 条 件 x20 个 驾驶 员 = 160) 。 我 们 采用 了 (18.1 B) 注意 力 分 散 的 定义 。 
为 了 避免 偏见 ， 视 频 是 随机 安排 的 。 有 了 这 个 设置 ， 每 个 视频 由 3 个 无 关 的 评估 人 
员 进 行 分 级 。 

图 18.5 给 出 了 在 辅助 任务 级 别 上 感知 注意 力 分 散 程度 的 平均 值 和 标准 差 。 结 
RRHH, GPS 跟随 和 打 电 话 的 任务 ， 没 有 像 进 行 GPS 操作 和 打 电 话 那样 被 感知 为 
分 散 注 意 力 。 然 而 ， 用 手机 谈话 会 增加 驾驶 员 的 认 知 负载 。 人 研究 表明 使 用 手机 会 影 
驶 员 的 表现 〈 如 忽略 红绿灯 ， rp LN a 

能 捕捉 到 这 种 类 型 的 注意 力 分 散 。 同 样 的 ， 收 音 机 和 图 片 也 被 视 为 能 够 构成 分 心 
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图 18.4 主观 评价 的 GUL [要 求 对 视频 进行 分 级 评价 驾 驶 员 的 注意 力 分 散 程度 
(1 为 不 分 心 ，5 为 分 心 最 严重 ) ] 
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图 18.5 基于 主观 评估 的 感知 注意 力 分 散 程度 
(本 图 显示 了 所 有 驾驶 员 和 模拟 机 上 每 个 任务 的 均值 和 标准 差 ) 





18.5 多 通道 特征 的 分 析 





我 们 的 下 一 个 研究 问题 是 辨识 多 通道 的 特征 ， 来 描述 驾驶 员 的 分 心 程度 。 如 
o om ign 视频 和 音频 。 从 这 些 非 插入 式 形式 中 识 
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CAN 总 线 : 一 个 重要 信息 源 是 来 自 CAN 总 线 ， 其 中 包括 方向 盘 转 角 、 制 动 
值 、 和 车辆 速度 和 加 速度 等 。 汽 车 也 通过 传 感 顺 来 测量 和 记录 制 动 和 加 速 踏板 的 
压力 。 

从 这 些 连 续 的 数据 流 中 ， 我 们 可 以 估计 出 制 劲 和 加 速 踏板 的 信息 。 此 外 ， 我 们 
估计 出 方向 盘 的 拌 动 角 ， 因 为 我 们 希望 驾驶 员 在 参与 辅助 任务 时 会 产生 更 多 的 

“紧张 ”行为 。 车 辆 速度 也 要 考虑 ， 因 为 假设 当 驾 驶 员 在 进行 一 个 次 要 任务 时 ,他 
们 可 能 倾向 于 减速 

正面 摄像 机 : "TT 9 驶 员 的 正面 视图 。 从 这 种 形态 中 ， 我 们 可 以 估计 驾驶 
员 头 部 的 方向 和 眼睛 闭合 的 次 数 ， 尖 部 姿势 由 偏 航 和 螺 距 角 来 描述 。 在 给 定 辅助 任 
务 时 ， 头 部 运动 不 是 那么 重要 ， 因 此 它 不 包括 在 分 析 中 。 同 样 ， 闭 目 百分比 定义 为 
帧 的 百分比 ， 此 时 眼 瞪 下 降 到 一 个 给 定 的 阔 值 。 这 个 阀 值 设置 点 是 在 眼睛 直 视 正面 
相机 的 位 置 。 这 些 变量 由 AFECT 软件 自动 提取 。 以 前 的 研究 表明 ， 此 软件 在 大 
型 数据 集 和 不 同 照 明 条 件 下 也 很 鲁 棒 。 它 的 另 一 个 优点 是 ， 能 对 信息 进行 独立 地 逐 
帧 估计 。 因 此 ， 错 误 不 能 在 帧 之 间 传 播 。 不 幸 的 是 ， 一 旦 头 部 旋转 超过 一 定 的 角 
度 , 或 由 于 驾驶 员 脸 部 被 他 的 手 挡住 时 ， 一 些 信息 就 会 丢失 。 这 个 算法 在 这 些 情况 
下 会 产生 空 数据 。 

送 话 吉 阵列 : 与 辅助 任务 相关 的 声学 信息 是 具有 声音 或 声音 活动 的 特点 ， 如 
GPS 跟随 、 电 话 交 谈 、 图 片 和 对 话 等 。 在 这 里 ,我 们 从 最 靠近 驾驶 员 的 送 话 器 来 估 
计 平 均 的 音频 能 量 。 

所 提出 的 监控 系统 将 数据 细 分 成 小 窗口 (例如 5 s) ， 从 中 提取 相关 特征 。 我 
们 估计 上 述 每 组 数据 的 平均 值 和 标准 偏差 ， 以 此 作为 特征 。 其 他 预 处 理 步 又 的 细节 
详 见 Jain 和 Busso 的 研究 结果 5 。 

经 过 多 通道 特性 估计 后 ， 在 进行 辅助 任务 和 正常 任务 的 条 件 下 ， 我 们 比较 
了 它们 的 值 。 注 意 ， 部 分 路 段 有 不 同 的 速度 限制 和 转向 次 数 。 因 此 ， 驾 驶 员 进 
行 第 一 个 任务 (18.3 328 — PE) 的 数据 只 与 芍 驶 员 在 同一 路 线 不 执行 任何 任 
务 的 数据 相对 比 (18.3 节 第 二 圈 )。 这 种 方法 降低 了 由 于 路 线 的 变化 所 引入 的 
差异 。 

当 驾 驶 员 从 事 辅 助 任务 时 ， 我们 对 数值 发 生变 化 的 特征 进行 了 统计 分 析 。 配 对 
假设 检验 用 来 评估 在 每 个 任务 和 相应 的 正常 状态 之 间 特 征 的 差别 是 否 明 显 。 使 用 了 
配对 代替 独立 的 样本 ， 因 为 我 们 想 弥 补 驾驶 员 潜 在 的 变化 。 针 对 每 个 特征 f， 我 们 
有 以 下 假设 检验 |. 





















































Ay: Hl TA =0 
Hi: w a -u #0 (18.1) 
RP pw 和 Ww “所 有 讲话 者 在 正常 情况 和 有 任务 条 件 下 f 的 均值 。 
因为 数据 库 中 包含 20 个 驾驶 员 ， 我 们 对 小 样本 使 用 一 个 上 检验 : 
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jd 
s/n 
式 中 a RI s, ——ZE n 220 个 样本 中 样本 差异 的 平均 值 和 标准 偏差 。 
图 18.6 显示 p 值 =0.05 ( 深 灰 色 ) , p f£ 20.10. (RE). p fi 20.20. (IRR 
色 ) 时 特征 非常 显著 。 这 个 图 表明 ， 能 量 和 头 部 揪 摆 运动 的 均值 与 其 他 任务 有 明 
显 不 同 (p 值 =0.05) 。 闭 眼 (AZAR) 的 百分比 也 与 其 他 任务 ， 比 如 收音 机 、GPS 
跟随 、 电 话 操作 和 图 片 操作 等 有 显著 的 不 同 。 该 图 还 显示 ， 有 些 任务 ， 如 GPS 、 打 
电话 和 交谈 等 几 个 选 定 的 任务 所 呈现 的 差异 也 很 显著 ， 其 p 值 =0.05。 有 趣 的 是 ， 
往往 认为 这 些 任务 比 其 他 任务 更 少 地 分 散 注意 力 ( 见 图 18.5)。 注 意 ， 对 于 不 同 的 
任务 ， 在 这 个 研究 中 所 有 的 形式 (CAN 总 线 、 视 频 和 送 话 器 ) 中 有 显著 的 特征 。 
图 18.6 表明 了 在 正常 条 件 与 执行 任务 条 件 下 显著 不 同 的 特征 ， 并 没有 在 每 个 
条 件 下 都 显示 其 特征 的 模式 。 因 此 ， 我 们 需要 对 所 有 讲话 者 估计 在 每 个 辅助 任务 中 
特征 的 均值 和 标准 偏差 。 我 们 也 估计 了 在 相应 的 路 段 ， 在 正常 条 件 下 观察 到 的 这 些 
寺 征 的 统计 。 





t (18.2) 
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图 18.6 特征 与 任务 之 间 的 配对 1 检验 结果 ， 对 于 一 个 特定 的 任务 ， 灰 色 区 域 表 示 的 是 发 现 有 
明显 差异 的 特征 ，( 暗 灰色 , p 值 为 0.05; KE, p 值 为 0. 10; 浅 灰色 , p 值 为 0.20) 




















图 18.7 显示 了 头 部 摆动 运动 ( 见 图 18.7a) 、 头 部 倾斜 运 动 ( 见 图 18. 7b) , 
车 辆 速度 ( 见 图 18.7c) 以 及 方向 盘 抖动 ( 见 图 18.7d) 的 误差 分 布 。 

图 18.7 显示 ， 当 执行 一 个 任务 时 ， 驾 驶 员 习 惯 看 他 的 右 侧 。 在 一 些 任务 中 ， 
比如 操作 手机 和 图 片 (ILEI 18.7p) ， 头 部 倾斜 运动 变化 更 明显 。 而 在 另 一 些 情况 
下 ,驾驶 员 倾 向 于 向 下 看 。 图 18. 7c 显示 驾驶 员 在 从 事 辅助 任务 时 会 减速 。 在 所 有 
的 任务 都 观察 到 这 个 结果 。 图 18.7d 显示 在 进行 GPS 操作 和 电话 操作 时 ， 转 向 轮 
的 抖动 稍微 有 点 高 。 然 而 ， 这 些 差异 都 不 显著 ( 见 图 18.6)。 图 18.7 还 显示 了 在 
正常 条 件 下 ， 在 所 有 任务 中 特征 的 差异 。 这 些 差异 是 依赖 于 道路 的 。 结 果 表 明 ， 选 
定 的 路 线 是 一 个 重要 的 变量 ， 在 设计 自动 反馈 系统 中 应 加 以 考虑 ”1 。 图 18. 8 显示 
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图 18.7 误差 图 显示 了 抖动 的 均值 和 标准 差 
a) 头 部 摆动 运动 b) 头 部 倾斜 运动 c) 车 辆 速度 d) 方向 盘 
了 正常 条 件 和 任务 条 件 下 的 是 眼 比 率 。 可 以 看 出 ， 在 正常 情况 下 ， 对 一 些 任 务 ， 比 
如 进行 广播 、 电 话 和 图 片 操 作 等 ， 在 不 同 模式 下 有 肯 眼 比率 是 不 同 的。 对 于 这 些 任 
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务 ， 各 驶 员 倾 向 于 保持 眼 瞪 更 加 打开 。 
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18.8 EES ZR TTE RES AVE T BIER HR. ET 4 EG 
(在 相应 路 线 下 正常 任务 观察 到 的 特征 的 估计 值 ) 


图 18. 9 提供 了 在 一 些 任务 ， 如 无 线 电 、 交 谈 中 关于 观察 到 的 头 摆动 运动 差异 
的 进一步 信息 。 这 个 图 提供 了 正常 条 件 和 任务 条 件 下 的 特征 分 布 。 注 意 ， 这 些 都 是 
驾驶 员 经 常 实施 的 辅助 任务 。 这 个 图 显示 了 ， 现 在 这 两 个 任务 的 分 布 都 呈现 正 偏 态 
分 布 。 言 下 之 意 是 驾驶 员 将 他 的 注意 力 从 马路 转移 到 了 别处 ， 这 可 能 会 影响 他 们 对 
当前 状态 的 感知 。 
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到 18.9 头 部 摇摆 运动 的 分 布 【 该 分 布 是 由 来 自任 务 中 的 数据 的 佑 值 
( 深 灰 色 ) 和 正常 条 件 下 的 估 值 〈 浅 灰色 ) ， 垂 直线 代表 相应 的 均值 ] 
a) 调试 广播 
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图 18.9 头 部 摇摆 运动 的 分 布 【 该 分 布 是 由 来 自任 务 中 的 数据 的 佑 值 
( 深 灰 色 ) 和 正常 条 件 下 的 估 值 〈 浅 灰色 ) ， 垂 直线 代表 相应 的 均值 ] ( 续 ) 


b) 谈话 























18.6 驾驶 员 分 心 的 预测 


在 研究 一 些 能 表示 驾驶 员 注 意 力 分 散 的 相关 特征 后 ， 这 部 分 探索 提出 的 多 通道 
特性 是 否 可 以 用 来 检测 各 驶 员 的 分 心 。 这 项 研究 包括 两 个 评 售 。 

首先 ,我们 训练 一 个 分 类 带 来 识别 驾驶 员 是 否 在 执行 任何 辅助 任务 ( 见 6.1 
节 )。 然 后 ,我们 建立 一 个 回归 模型 ， 旨 在 预测 驾驶 员 的 注意 力 分 散 程 度 ( 见 6.2 
Te. 


18.6.1 辅助 任务 的 分 类 


对 于 辅助 任务 的 感知 评价 在 18.4 节 已 经 阐明 ， 一 些 辅助 任务 可 能 比 其 他 任务 
使 驾驶 员 产生 更 多 的 分 心 。 这 个 结果 表明 ， 识 别 驾 驶 员 所 从 事 辅 助 任务 是 一 个 重要 
的 问题 。 我 们 提出 了 一 个 二 元 分 类 器 ,来 区 分 轨 驶 员 处 于 执行 任务 状态 或 者 正常 状 
态 5 。 在 这 里 ， 我 们 对 于 7 种 辅助 任务 和 正常 条 件 (第 8 种 状态 ) 之 间 的 多 级 识 
别 问题 很 感 兴趣 。 我 们 认为 这 是 可 以 有 效应 用 的 一 个 实用 方法 。 

对 于 这 个 评价 ， 我 们 训练 一 个 天 值 近 值 取 样 分 类 需 。 数 据 库 是 分 成 了 5s 的 窗 
口 ， 视 为 独立 的 样本 。 任 务 标签 根据 任务 所 在 的 相应 路 线段 分 配 到 样本 上 。 为 确保 
得 到 驾驶 员 无 关 的 结果 ， 一 个 来 自 讲话 者 的 样本 需要 包括 在 培训 或 测试 的 设置 中 。 





226 车 载 系统 和 安全 的 数字 信号 处 理 





这 是 通过 “一 个 驾驶 员 一 个 结果 ”交叉 验证 方案 来 实现 。 表 18. 1 给 出 了 在 不 同 天 
值 时 的 平均 精确 度 。k =20 时 ， 可 以 获得 最 佳 精确 度 ， 其 准确 性 为 42.72% 。 这 种 
精确 度 比 偶 然 情况 高 了 很 多 ( 约 12. 5% ) 。 

表 18.1 不 同 k 值 下 的 多 级 别 k- NN 分 类 器 的 精确 度 


k 4 8 12 16 20 





精确 度 0. 3582 0. 3958 0. 4021 0. 4218 0. 4272 


18.6.2 ”对 于 驾驶 员 注 意 力 分 散 程 度 的 回归 模型 


第 二 个 评价 包括 构建 一 个 预测 驾驶 员 分 心 程度 的 回归 模型 。 这 个 实验 的 基准 是 
呈现 在 18. 4 节 的 平均 主观 评价 结果 。 在 本 分 析 中 ， 只 考虑 了 经 过 感知 评估 的 样品 
(把 每 个 任务 、 每 个 驾驶 员 的 数据 分 成 5s 一 段 的 平衡 样本 数 ， 共 480 Bt), ， 多 通道 
特性 作为 因 变 量 来 考虑 。 因 为 他 们 改进 了 性 能 ， 所 以 该 模型 中 包含 相互 作用 和 二 次 
项 。 该 模型 的 确定 系数 是 R =0.53， 与 之 相对 应 的 一 个 相关 系数 p =0.728。 这 个 
结果 表明 ， 所 提出 的 特征 可 以 用 来 预测 驾驶 员 注 意 力 分 散 程 度 。 




















18.7 讨论 和 小 结 


任何 分 心 都 会 影响 驾驶 员 对 其 状态 的 感知 ， 并 导致 灾难 性 的 后 果 。 本 章 小 结 
了 我 们 目前 在 检测 驾驶 员 分 心 时 使 用 多 模式 的 研究 成 果 。 这 项 研究 基于 由 实际 行 
驶 条 件 收 集 的 数据 库 ， 其 中 20 个 驾驶 员 被 要 求 执行 常见 的 辅助 任务 。 我 们 的 分 
析 识 别 了 提取 自 CAN 数据 总 线 、 相 机 和 送 话 器 的 一 些 特征 ， 这 些 特征 在 不 同 的 
任务 条 件 下 呈现 了 不 同 的 差异 。 我 们 的 结果 显示 ， 这 些 多 通道 特性 都 可 以 用 来 预 
测 驾 驶 员 的 注意 力 分 散 程度 。 由 回归 模型 估计 的 结果 与 人 类 的 主观 估 值 是 高 度 相 
Xj (p =0. 728) « 

我 们 的 方法 的 一 个 弱点 是 分 心 水 平 的 基准 ， 它 来 自主 观 评价 。 所 提出 的 感知 评 
价 可 能 不 会 捕获 认 知 和 心理 上 的 分 心 。 对 于 这 些 类 型 的 分 心 ， 可 通过 进行 工作 负荷 
分 级 来 推导 得 出 (如 SWAT, NASATLX) °°) ， 或 者 通过 插入 式 传感器 测量 大 脑 活 
动 '”] ， 或 间接 推断 驾驶 员 的 潜在 认 知 状态 〈 即 情绪 、 压 力 等 ) 。 在 这 个 部 分 ,我 
们 正 着 手 检测 驾驶 员 的 情绪 状态 ， 尤 其 是 消极 情绪 。 

另 一 个 感 兴趣 的 领域 是 扩展 特征 集 。 例 如 ， 计 算 机 视觉 领域 的 进步 可 以 用 算法 
来 直接 检测 引起 分 心 的 对 象 (如 手机 ) 或 行为 (如 饮食 ) 等 。 这 些 算法 的 输出 可 
以 在 所 提出 的 回归 模型 中 作为 离散 变量 。 

在 本 章 提出 的 工作 是 我 们 确定 驾驶 员 注意 力 水 平 的 第 一 步 。 具 有 这 种 能 力 的 一 
个 实时 算法 将 有 助 于 设计 一 个 反馈 系统 来 提醒 分 心 的 驾驶 员 ， 防止 发 生 潜在 的 事 
故 ， 以 此 来 改进 所 有 驾驶 员 的 体验 。 
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第 19 s 一 种 车 道 改 变 轨 迹 建 模 的 随机 方法 


Yoshihiro Nishiwaki, Chiyomi Miyajima, Norihide Kitaoka 和 Kazuya Takeda 


摘要 : 本 章 讨论 了 在 驾驶 中 车 道 变化 时 ， 对 车 辆 轨迹 建 模 的 信号 处 理 方法 。 因 
为 每 个 人 的 驾驶 习惯 是 一 个 不 确定 的 过 程 ， 因 此 我 们 开发 了 一 个 随机 的 方法 来 模拟 
它们 。 所 提出 的 模型 由 两 部 分 组 成 : 一 个 代表 隐藏 动态 系统 的 Markov 模型 和 一 个 
代表 认 知 距离 的 危险 映射 函数 。 第 一 部 分 模拟 了 车 辆 运动 的 局 部 动力 学 ， 并 生成 一 
组 可 能 的 轨迹 ; 第 二 部 分 通过 对 与 周围 车 辆 之 间距 离 的 随机 估计 ， 来 选择 最 佳 轨 
迹 。 通 过 实验 评估 表明 ， 该 模型 能 预测 在 给 定 交通 条 件 下 的 车 辆 轨迹 ， 且 其 预测 误 
差 仅 为 17. 6m, 

关键 词 : 驾驶 行为 ， 产 生 ; 危险 映射 ， 隐 型 Markov 模型 (HMM); 车道 变更 ; 
预测 ; 抽样 ， 随 机 模型 


19.1 简介 








鸭 驶 安全 性 和 节能 是 现代 社会 驾驶 的 中 心 问题 。 尽 管 在 日 本 交通 事故 致死 率 已 
经 显著 下 降 ， 但 是 在 2010 年 因 交 通 事故 死亡 的 人 数 仍 然 为 5000 AZA. B, 
能 源 和 环境 问题 也 严重 威胁 到 现代 社会 。 预 碰撞 安全 和 混合 动力 汽车 等 技术 已 经 解 
决 了 其 中 的 一 些 问题 ?4 。 另 一 方面 ， 关 于 驾驶 员 本 身 的 一 些 技术 ， 如 驾驶 员 监 
控 、 车 载 免 提 和 车 载 接口 等 技术 ， 仍 然 没 有 得 到 商业 上 的 应 用 。 

此 外 ， 只 有 很 少 的 研究 是 针对 模拟 人 类 驾驶 行为 的 ， 尺 管 驾驶 行为 已 经 从 控制 
的 角度 进行 了 广泛 的 研究 。 因 为 人 类 的 行为 是 不 确定 性 的 ， 所 以 从 随机 信号 处 
理 的 角度 来 研究 驾驶 行为 建 模 是 很 重要 的 。 

在 本 章 ， 我 们 提出 一 个 随机 的 方法 来 预测 车 辆 在 变 道 时 的 轨迹 。 在 我 们 提出 的 
方法 中 ， 一 个 轨迹 模型 可 以 通过 一 组 基于 无 预定 参数 的 极 大 似 然 原 则 所 收集 到 的 数 
据 来 训练 。 此 外 ， 使 用 隐 型 Markov 模型 (HMM), ， 我 们 的 方法 能 在 对 状态 变化 没 
有 显 式 了 解 或 没有 预定 参数 时 ， 对 变换 车 道 的 多 态 表现 进行 建 模 。 

各 种 方法 都 可 以 用 来 预测 车 辆 的 行为 。Danielsson 等 人 00 在 很 短 的 时 间 内 生成 
周围 车 辆 的 车 辆 轨迹 。 然 而 ,没有 考虑 驾驶 员 的 特性 ， 这 个 方法 不 是 定量 的 评估 。 
Althoff 等 个 对 于 在 路 面 上 存在 的 卡车 、 汽 车 和 行人 进行 快速 随机 建 模 。 然 而 ， 
模型 特征 的 有 效 性 是 不 清楚 的 ， 且 没有 考虑 芍 驶 员 的 特征 。 
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本 章 最 重要 的 贡献 是 ， 





我 们 开发 了 一 个 基于 随机 信号 处 理 的 模型 ， 可 以 预测 车 


辆 在 20s 之 间 的 行为 。 这 么 长 时 间 的 预测 在 以 前 关于 控制 理论 的 研究 中 是 未 被 讨论 
的 ， 因 为 它们 都 假设 传 感 数 据 是 非常 频繁 地 更 新 的 。 我 们 提出 一 个 随机 方法 来 对 轰 
驶 员 在 变 道 时 的 行为 特征 建 模 ， 并 预测 在 给 定 最 初 的 条 件 和 交通 环境 下 的 变 道 轨 
迹 。 我 们 建议 的 方法 包括 两 个 部 分 ， 如 图 19. 1 所 示 。 


4T7--------T-----T-L-T-------I-I--------2-2----2-2-2----------2---------------------------------X. 
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LCD-L 


LCD: 车 道 变更 持续 假设 
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图 19.1 车 道 变 更 轨迹 生成 概述 





第 一 部 分 ， 使 用 隐 Markov 模型 ， 来 描述 源 于 驾驶 员 习 惯 特 征 的 汽车 运动 随机 
动态 特性 。 因 为 变 道 动作 包括 多 种 状态 〈 即 检查 交通 环境 的 安全 性 、 评 佑 其 他 车 
辆 的 位 置 、 移 动 到 下 一 个 车 道 以 及 调整 驾驶 速度 进入 交通 流 ) ， 一 个 单一 的 动态 系 
统 是 不 能 对 车 辆 轨迹 进行 建 模 的 。 此 外 ， 不 同 状态 间 的 界限 是 不 能 由 它 的 轨迹 观察 


到 的 。HMM 系统 可 以 对 这 

















样 的 随机 状态 系统 建 模 ， 并 且 估 计 最 大 化 (EM) 算法 





可 以 在 无 显 式 状态 边界 信息 下 训练 HMM 系统 :2 。 此 外 ， 一 旦 信号 的 联合 几率 和 
时 间 导 数 ， 也 就 是 z[z] 和 Az[n] 得 到 训练 ,那么 对 于 给 定 的 状态 模式 ， 可 以 计 








算出 最 大 可 能 的 信号 序列 ， 
成 代表 驾驶 员 变 道行 为 特 御 





1z[ 四 上， wo 。 因 此 ， 我 们 的 第 一 部 分 模型 可 以 生 
的 轨迹 假设 。 





第 二 部 分 是 一 个 由 车 后 距离 分 布 的 训练 数据 计算 得 到 的 认 知 危险 信号 。 在 这 里 ， 
将 驾驶 员 对 在 一 个 特定 位 置 到 附近 车 辆 距离 的 敏感 程度 进行 建 模 。 对 周围 车 辆 的 敏感 
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度 ， 可 以 在 概率 领域 整合 到 危险 信号 中 。 因 此 ， 这 个 函数 可 以 用 于 轨迹 的 选择 。 
最 后 ， 将 这 两 个 过 程 整 合 到 一 个 轨迹 预测 算法 中 ， 首 先 对 HMM 概率 分 布 进 行 抽 
样 ， 生 成 一 组 可 能 的 轨迹 ， 然 后 基于 对 周围 交通 的 危险 信号 认 知 ， 选 出 最 优 轨 迹 。 











19.2 使 用 隐 型 Markov 模型 对 轨迹 建 模 


19.2.1 轨迹 数据 

一 组 观察 到 的 车 辆 运动 ， 能 够 通过 使 用 驾驶 模拟 器 来 测量 出 。 当 开始 变 道 时 ， 
每 160ms 记录 一 次 车 辆 位 置 相 对 的 长 度 和 宽度 ， 即 x,[n] 和 7y[nz]， 以 及 车 轮 的 速 
BE, Elx,[n] 和 y,[n]。 这 里 i=1，2, 3 是 一 个 周围 车 辆 位 置 的 指标 LA 
19.2)，(xo[n]，yo[n]) 代表 驾驶 员 自 己 车 辆 的 位 置 。 
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图 19.2 车 道 变 更 轨迹 和 周围 车 辆 的 几何 位 置 
车 道 改变 活动 的 持续 时 间 ，n =1，…，,，N， 开 始 于 VO (驾驶 员 自 己 的 车 ) 和 
V2 都 处 于 同一 纵向 位 置 ， 结 束 于 V0 的 横向 位 置 达 到 最 低位 置 ， 如 图 19. 2 所 示 。 
19.2.2 PZ! Markov 模型 
我 们 使 用 一 个 三 态 HMM 来 描述 变 道 的 3 个 不 同 阶段 : 准备 、 转 移 和 调整 。 
在 提出 的 模型 中 ， 每 个 状态 特点 都 由 一 个 8 变量 的 联合 分 布 来 描述 . 
v2[x, x, Axo, Ayo, Azo, Ayo, xs x (19.1) 
一 般 来 说 ， 纵 向 距离 x, 随 时间 单调 增加 ， 且 不 能 由 一 个 i.i. d 过 程 来 建 模 。 因 
此 ， 我 们 使 用 纵向 速度 mm ， 作 为 一 个 描述 轨迹 的 变量 。 我 们 通过 线性 回归 来 计算 
一 个 信号 x 的 高 阶 时 间 导 数 x* (或 人 x) 如 下 : 



































x[n] = = (19.2) 
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最 后 ， 通 过 使 用 一 组 记录 的 轨迹 来 训练 HMM, HER E mw, 以 及 轨迹 变量 "的 
协 方差 矩阵 Yo , 均 可 以 由 各 状态 j = 1，2，3 来 估计 。 持 续 时 间 w 的 分 布 可 以 使 用 
高 斯 分 布 来 建 模 。 
19.2.3 ”由 隐 型 Markov 模型 生成 轨迹 

如 以 下 实验 所 示 ， 轨 迹 的 形状 由 HMM 和 车 道 变更 活动 的 持续 来 控制 。 当 驾驶 员 
在 很 短 的 时 间 进 行 一 个 车 道 变更 时 ， 将 导致 变化 很 大 的 轨迹 。 我 们 按照 下 面 的 方法 ， 
通过 确定 状态 的 持续 |4,| 和 对 应 的 PDF 抽样 生成 了 一 组 可 能 的 车 道 变更 轨迹 。 

首先 ， 我 们 通过 对 训练 过 的 分 布 取样 来 确定 车 道 变更 持续 N。 然 后 我 们 从 状态 
持续 分 布 中 均匀 取样 ， 来 确定 状态 持续 d: 


d, = e | (19.3) 
2o 


式 中 | | 一 一 一 个 上 限 函 数 ; 
é 一 一 在 0 ~1 间 符 合 均匀 分 布 的 随机 变量 。 
一 旦 一 组 状态 持续 被 确定 ， 那 么 最 大 近似 HMM 信号 综合 算法 (ML IE) 
和 抽样 算法 :的 即 可 生成 最 可 能 的 轨迹 。 简 单 重复 这 个 过 程 将 产生 一 组 可 能 的 车 辆 
轨迹 ， 来 描述 驾驶 员 变 道 时 典型 的 行为 特点 。 


19.3 ”轨迹 选择 


虽然 自然 行驶 状态 下 的 驾驶 行为 可 能 存在 各 种 轨迹 ， 但 由 于 周围 车 辆 的 条 件 ， 
在 给 定 的 交通 环境 下 被 限制 的 情况 下 ， 和 车 道 轨 迹 的 数量 仍然 可 以 估计 出 来 。 此 外 ， 
应 该 根据 交通 情况 ,不同 的 轨 驶 员 ， 其 轨迹 选择 的 基准 应 该 不 同 ， 如 一 些 驾 驶 员 对 
前 车 的 位 置 比 对 侧 车 的 位 置 更 敏感 。 因 此 ， 我 们 基于 车 辆 的 情况 ， 即 到 周围 车 辆 的 
相对 距离 ， 设 定 一 个 车 道 改 变 轨 迹 的 评分 函数 来 对 每 个 蜀 驶 员 的 选择 标准 建 模 。 

在 所 提出 的 方法 中 ， 基 于 周围 车 辆 相对 位 置 直方 图 1, = [so to Yos Yl’, 
在 一 个 随机 域内 定义 了 一 个 风险 映射 函数 M 

为 了 对 周围 车 辆 的 敏感 性 建 模 ， 我 们 使 用 培训 过 的 数据 ， 对 3 个 距离 中 的 每 一 
个 x, i=1,2,3, 计算 协 方差 矩阵 R,。 因 为 在 不 是 很 敏感 的 距离 上 ， 且 距离 的 变 
化 很 广泛 ， 所 以 我 们 使 用 二 次 形式 的 逆 协 方差 矩阵 R, 作 为 一 个 认 知 距离 的 指标 。 
然后 我 们 计算 周围 车 辆 V, 的 危险 映射 函数 M 如 下 : 

1 
1 + exp} a(r R 'r, -B,)} 
式 中 a 一 一 所 定义 的 最 小 安全 距离 的 一 个 参数 ， 以 便 使 训练 数据 的 认 知 距离 x 
R r 的 最 小 值 与 小 于 5% 的 分 布 值 相对 应 ; 


















































M(rR,'r,) E 





(19.4) 
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B,——r,R, rff 50% 分 布 值 (均值 ， 见 图 19. 3)。 
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认 知 距离 
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认 知 距离 
图 19.3 一 个 危险 映射 的 参数 
M (minrR, r,) =0.95 (19.5) 
M (rR,'r) =0.5 (19.6) 
危险 映射 参数 a, 和 8B, 可 通过 对 和 有 ,求解 式 (19.5) 和 式 (19.6) 来 得 到 ; 

- log(0. 05) - log(0. 95) (19.7) 


min{ r R r,| -rR "r 
B, »r R,r, (19.8) 
危险 映射 函数 M FER] (0, 1) 中 取 值 ， 其 值 越 高 ， 表 示 情 况 越 危险 。 
危险 映射 函数 和 可 以 作为 在 Pr jsafel r) 范围 内 的 安全 驾 强 条 件 的 后 验 概率 ， 
其 中 似 然 性 是 一 个 指数 二 次 形式 ， 即 
Pr {rl safe/unsafe } cexp - rar] (19.9) 


式 中 4 一 一 一 个 可 逆 方 阵 。 
因此 ， 可 以 简单 地 通过 将 3 个 权重 为 和, 的 概率 整合 到 一 个 映射 中 ,将 3 个 周围 
车 辆 的 危险 映射 整合 到 一 起 : à 


M'- = 19. 10 
之 1 + expla; (r R r, - B;) | 


一 旦 在 时 间 点 n 上 ,周围 车 辆 的 位 置 r,[n] 是 确定 的 ， 对 每 个 时 间 点 计算 得 
Ms 通过 在 车 道 变更 时 间 内 平均 ， 我 们 就 能 够 对 可 能 的 轨迹 进行 对 比 ， 然 后 从 可 
能 的 轨迹 中 选 出 值 最 小 的 最 优 轨迹 。 


























19.4 评价 


19.4.1 数据 收集 和 设置 
两 个 驾驶 员 中 的 每 个 人 都 使 用 驾驶 模拟 带 ， 来 模拟 一 条 交通 密度 适中 的 双 车 道 


234 车 载 系统 和 安全 的 数字 信号 处 理 





城市 高 速 公 路 ， 记 录 了 30 个 车 道 变 更 试验 。 在 超车 车 道 时 ， 车 速 在 82.8 ~ 
127. 4km/h 之 间 ， 两 车 的 间距 介 于 85 ~ 315m。 在 试验 中 ， 驾 驶 员 被 要 求 在 适当 的 
时 候 超 过 前 车 一 次 。 在 超过 前 车 时 ， 两 个 驾驶 员 的 平均 速度 为 112. 4km/h。 

图 19.4 显示 了 在 每 个 试验 中 的 变更 车 道 持续 时 间 ， 以 及 它 最 可 能 的 状态 持续 。 
变更 车 道 持 续 时 间 的 分 布 反 映 了 驾驶 员 变 更 车 道 时 的 行为 。 例 如 ， 平 均 而 言 ， 驾 驶 
D B 在 完成 换 车 道 工作 时 比 驾 驶 员 A 需要 更 长 时 间 。 
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K|19.4 ”变更 车 道 的 持续 时 间 及 使 用 HMM 得 到 的 最 可 能 状态 持续 时 间 




















30 个 试验 被 用 于 3 倍 交叉 验证 测试 中 : 20 个 用 于 培训 ，10 个 用 于 测试 。HMM 
的 每 个 状态 下 通过 轨迹 变量 的 联合 高 斯 PDF 来 描述 ， 并 使 用 HTK 来 训练 "| 。 

由 HMM 生成 了 400 种 可 能 的 轨迹 。 首 先 ，20 个 车 道 变 更 持续 值 N 是 由 驾驶 员 
本 身 变更 车 道 的 持续 时 间 分 布 中 抽样 得 到 的 。 然 后 ， 对 于 每 个 采样 的 车 道 变换 时 间 
N, RRA 20 组 状态 持续 时 间 1d} ， 也 可 通过 式 (19.3) 从 均匀 分 布 中 取样 得 
到 。 为 了 选择 最 优 轨 迹 ， 我 们 将 3 个 危险 映射 综合 成 一 个 等 权重 的 危险 映射 ， 也 就 
是 说 ,在 式 (19.10) 中 , $A, A,, A, =1/3。 在 整个 变更 车 道 的 活动 中 ,我 们 
假设 周围 车 辆 的 速度 x*, 和 ;都 是 常数 。 


19.4.2 结果 


两 个 驾驶 员 的 每 个 HMM 状态 下 ， 经 训练 的 轨迹 变量 联合 PDF 如 图 19.5 所 示 。 
我 们 确认 了 使 用 HMM 参数 可 以 对 在 车 道 变 换 过 程 中 的 习惯 差异 建立 模型 。 两 个 驾驶 
员 训 练 的 危险 映射 M' 显 示 在 图 19.6 中 ， 同 时 还 描述 了 对 周围 车 辆 敏感 性 的 差异 。 

我 们 使 用 了 两 个 方法 ， 最 大 似 然 (ML) 方法 ' 汪 和 抽样 方法 ， 生 成 了 在 20s 期 
间 可 能 的 实 车 轨迹 。 使 用 ML 方法 生成 的 轨迹 和 选 定 的 最 优 轨迹 显示 在 图 19.7 中 ， 
使 用 抽样 方法 生成 的 如 图 19. 8 所 示 。 和 车 辆 行进 了 600m 左右 时 变换 车 道 。 两 个 区 
驶 员 的 轨迹 显然 是 不 同 的 。 

为 进一步 地 定量 评价 ， 我 们 使 用 归 一 化 方差 作为 局 部 距离 ， 基 于 动态 时 间 弯 曲 
(DTW) 计算 了 实际 轨迹 与 生成 轨迹 间 的 差别 : 
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图 19.5 对 两 个 驾驶 员 使 用 HMM 3 个 状态 训练 的 轨迹 变量 的 联合 PDF 
(绘制 了 y -Ay FH, 方 点 表示 的 是 均值 ， 轮 廓 代表 的 是 “一 个 a” 边界 ) 
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图 19.6 当 周 围 车 辆 在 同一 位 置 时 两 个 各 驶 员 的 危险 映射 图 
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图 19.7 ML 方法 生成 的 轨迹 (点 线 ) 和 选 定 的 轨迹 (虚线) 
[同时 给 出 了 给 定 条 件 下 观察 到 的 实际 轨迹 ( 实 线 ) ] 
D(i = 1,7) 
D(i,j) = mini D(i - 1,j - 1) 
Dij -1) (19. 11) 
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—— 生成 的 车 辆 轨迹 假设 0 
一 =" 被 选择 的 车 辆 轨迹 洲 
一 一 实际 车 辆 轨迹 


横向 位 置 /m 
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纵向 位 置 /m 


图 19.8 由 抽样 法 方法 生成 的 轨迹 (点 线 ) 和 选 定 的 轨迹 〈 虚线 ) 
[同时 给 出 给 定 条 件 下 观察 到 的 实际 轨迹 (KR) ] 





























式 中 7 和 三 -一 实际 和 预测 轨迹 中 的 长 度 。 

一 个 例子 的 DTW 结果 显示 在 图 19.9 中 。DTW 的 递归 从 D(0, 0) =0 到 DD 
(I，J) 。 我 们 使 用 10. Log (D). 作为 预期 的 信号 一 偏差 (SDR) 测量 值 。 这 是 由 
于 在 实际 和 预测 的 轨迹 长 度 不 同 。 


























se 实际 车 辆 轨迹 
x 一 -一 形成 的 车 辆 轨迹 假设 
lok ~ DTW 路 线 
5 * d 
0 : 
-4 -2 do 
H -2 
E -4 
x 0 10 20 


时 间 /s 
图 19.9 实际 轨迹 与 生成 轨迹 间 的 DTW 递归 实例 


使 用 最 大 似 然 法 ( 左 ) 以 及 抽样 方法 ( 右 )， 得 到 的 最 佳 轨 迹 假设 (最 好 的 ) 
和 所 有 的 轨迹 假设 (平均 值 ) 的 平均 SDR 值 ， 显 示 在 图 19.10 中 。 在 60 个 试验 
中 ， 抽 样 方法 得 到 的 SDR 结果 为 38.0dB。 与 ML 方法 相 比 ， 在 生成 更 接近 实际 的 
车 辆 轨迹 方面 ， 抽 样 法 更 好 。 

图 19. 11 给 出 了 当 驾 驶 员 A 的 模型 被 用 于 预测 驾驶 员 B. 的 轨迹 时 所 得 到 的 
SDR 值 ， 反 之 亦 然 。 当 其 他 驾驶 员 的 模型 被 用 来 预测 时 ，SDR 将 下 降 2.2 dB。 这 
个 结果 证 实 了 该 模型 对 于 捕捉 变更 车 道行 为 中 的 个 人 特征 是 十 分 有 效 的 。 我 们 也 在 
实际 车 道 变换 时 测试 了 我 们 的 方法 ， 也 就 是 =J 。 当 实际 的 车 道 变 换 持续 时 间 IN 
给 定 后 ， 可 以 计算 出 预测 轨迹 与 实际 轨迹 间 的 均 方 根 误差 (RMSE), 60 个 测试 的 
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RMSE 值 是 17. 6m， 在 预测 距离 约 600m 的 车 辆 轨迹 时 (也 就 是 对 于 一 个 20s 的 时 
间 区 间 ) ， 这 是 一 个 很 好 的 结 
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最 大 似 然 蒙特 卡 罗 方 法 
图 19.10 用 最 大 似 然 法 (A) 和 抽样 方法 ( 右 ) 得 到 的 最 佳 轨迹 
(最 好 的 ) 以 及 所 有 轨迹 (平均 值 ) 的 平均 SDR fH 
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驾驶 员 相 关 模 型 交换 的 模型 


图 19.11 使 用 一 个 驾驶 员 自 己 的 模型 ( 左 ) 和 使 用 其 他 
驾驶 员 的 模型 得 到 的 ( 右 ) 平均 SDR 值 














19.5 小 结 以 及 未 来 要 做 的 工作 


本 章 我 们 提出 了 一 种 用 来 对 驾驶 员 行 为 进行 建 模 的 随机 框架 ， 其 中 驾驶 员 的 习 
惯 行为 和 认 知 特性 通过 使 用 HMM 和 几何 概率 函数 来 建 模 。 该 方法 可 以 仅仅 根据 给 
定 的 由 HMM 生成 的 一 组 可 能 的 轨迹 作为 初始 条 件 ， 来 预测 20s 长 的 变更 车 道 的 轨 
迹 长 度 ， 然 后 使 用 几何 函数 来 选择 最 优 轨迹 。 因 为 模型 参数 可 基于 统计 训练 标准 来 
训练 ， 驾 驶 员 的 个 人 驾驶 风格 可 以 很 容易 地 使 用 训练 数据 特征 来 进行 描述 。 

基于 对 两 个 驾驶 员 进 行 的 实验 评 佑 ， 证 实 了 我 们 的 模型 可 以 生成 一 个 相当 准确 
的 个 性 化 轨迹 。 当 然 ， 进 一 步 的 研究 也 是 需要 的 。 首 先 ， 使 用 大 量 的 数据 ， 需 要 对 
我 们 的 方法 进行 更 多 分 析 的 和 量化 的 评 佑 。 同 时 ， 该 模型 应 该 在 实际 交通 状况 下 ， 
使 用 真实 收集 到 的 驾驶 数据 进行 测试 。 基 于 统一 的 标准 ， 将 生成 和 选择 的 过 程 成 整 
合成 一 体 ， 也 是 一 个 非常 具有 挑战 性 但 很 重要 的 任务 。 

致谢 : 这 项 工作 由 日 本 总 务 省 的 战略 信息 和 通信 研发 推广 计划 (SCOPE) 以 
及 日 本 科技 局 的 科技 发 展 核心 研究 (CREST) 提供 支持 。 我 们 也 感谢 这 些 项 目 成 
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3205€ 主动 安全 性 中 通过 时 间 序 列 的 随机 
方法 和 模式 识别 进行 的 CAN 总 线 信号 分 析 


Amardeep Sathyanarayana, Pinar Boyraz, Zelam Purohit 和 John H. L. Hansen 


摘要 : 在 驾驶 员 一 自 适 应 和 环境 感知 主动 安全 应 用 中 ，CAN 总 线 信号 发 挥 了 
核心 的 作用 。 现 代 车 辆 都 装备 了 一 些 传感器 和 ECU (电子 控制 单元 ) ， 用 来 测量 内 
燃 机 和 一 些 主动 车 辆 安全 系统 ， 如 ABS ( 防 抱 死 制 动 系统 ) Fo ESP (电子 稳定 程 
序 )。 现 代 汽 车 中 ， 所 有 在 传感器 、 电 控 单 元 和 执行 器 之 间 的 通信 都 是 通过 CAN 总 
线 进行 的 。 然 而 ， 尽 管 CAN 总 线 具 有 长 期 的 历史 和 广泛 应 用 的 趋势 ， 同 时 包含 如 
驾驶 模式 和 驾驶 员 特 性 等 方面 重要 的 信息 ,但 是 它 仍然 没有 被 广泛 地 研究 。 传 统 
的 发 动机 和 主动 安全 系统 使 用 CAN 总 线 的 一 个 非常 小 的 时 间 窗 口 (r«2s) 来 操 
作 。 与 之 相反 的 是 ， 实 施 驾 驶 员 一 自 适 应 和 环境 感知 系统 需要 长 时 间 窗 口 和 不 同 
的 方法 来 进行 分 析 。 在 本 章 中 ， 对 可 以 进行 这 种 类 型 分 析 的 系统 进行 了 综述 。 
CAN 总 线 信 号 用 来 识别 驾驶 模式 ,例如 长 期 的 代表 性 驾驶 辅助 任务 、 操 作 和 路 
线 等 。 基 于 分 析 结 果 ， 定 量 的 指标 /特征 矢量 可 以 应 用 在 很 多 方面 ， 在 这 里 ， 我 
们 考虑 了 它 的 两 个 前 景 : (DCAN 总 线 信号 可 以 作为 一 个 方法 ， 来 从 正常 和 安全 
方面 区 分 出 驾驶 员 的 行为 是 否 分 心 /健康 受 损 ; @ 驾 驶 员 特 点 和 控制 策略 可 以 被 
定量 确定 ， 因 此 主动 安全 控制 器 可 以 做 出 相应 的 调整 ， 使 安全 系统 获得 对 驾驶 员 
与 车 辆 的 最 好 反应 。 换 句 话 说， 可 以 设计 一 个 最 佳人 机 合作 系统 ， 来 得 到 安全 性 
全 面 的 改善 。 

关键 词 : 主动 安全 ; CAN 总 线 ; 时 序 分 析 


20.1 简介 





过 去 的 20 年 间 见 证 了 现代 汽车 的 转型 ， 车 辆 中 植 人 了 传感器 、 芯 片 和 执行 
器 ， 所 有 这 些 形成 了 集成 和 模块 化 的 安全 、 娱 乐 以 及 能 源 管 理 等 子 系统 。 事 实 
上 ， 汽 车 可 能 已 经 成 为 机 械 和 电气 /电子 组 件 的 第 一 个 合并 者 ， 以 便 对 以 下 方面 
进行 更 灵活 、 更 好 的 控制 : 中 能 源 的 生产 和 使 用 ( 即 正 时 /控制 内 燃 机 循环 、 混 
合 动力 技术 和 系统 开关 管理 ) ; @ 车 辆 动力 性 (BI ABS, ESP); OIRA (PE 
好 的 展示 、 自 适应 控制 和 设置 点 等 ) ; 驾驶 员 辅 助 系统 ( 即 LKS, ACC, Ei 
警告 和 泪 车 辅助 系统 等 ) 。 这 些 发 展 的 中 心 是 一 个 协议 ， 该 协议 使 传感器 、 处 理 
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单元 与 执行 机 构 之 间 的 所 有 信息 传递 成 为 可 能 。 该 协议 和 系统 称 为 CAN 总 线 
(控制 器 区 域 网 络 ) ， 最 早 在 20 世纪 90 年 代 早 期 提出 中 。 虽 然 这 些 转 变 正在 发 
^E, 但 是 研究 人 员 已 经 注意 到 男 一 个 层面 。 围 绕 现 代 汽 车 的 所 有 技术 和 需要 考虑 
人 的 因素 : 驾驶 员 。 虽 然 对 驾驶 员 行 为 的 理解 和 建 模 已 经 不 是 新 的 研究 ”4 ， 
但 是 ， 期 待 已 久 的 整合 先进 汽车 理念 与 以 人 为 本 的 系统 才刚 刚 开 始 。 能 够 设计 
出 真正 合作 和 有 效 的 驾驶 员 辅 助 、 安 全 或 信息 娱乐 系统 ， 鸭 驶 员 的 行为 需要 更 
好 地 理解 、 建 模 并 纳入 系统 设计 中 。 本 章 的 主题 是 利用 CAN 总 线 信号 ， 并 使 
用 它 来 对 驾驶 员 的 行为 建 模 ， 以 及 建议 整合 智能 CAN 总 线 过 程 作为 一 个 系统 
来 实现 。 在 本 章 中 ， 新 开发 的 CAN 总 线 数据 分 析 工 具 在 第 2 部 分 加 以 说 明 。 
接 下 来 是 基于 CAN 总 线 分 析 的 系统 和 应 有 用。 最后， 根据 对 过 去 1.5 年 的 UT- 
Drive 项 目的 调查 结果 所 得 出 的 结论 ， 以 及 该 领域 未 来 的 方向 ， 以 吸引 更 多 的 
人 研究。 

















20.2 CAN 总线 数据 分 析 


CAN 总 线 数据 的 分 析 需 要 一 个 多 媒体 数据 标注 工具 和 一 个 公共 协议 ， 能 够 对 
数据 进行 分 段 ， 使 其 成 为 有 意义 的 数据 段 ， 并 在 建 模 过 程 中 有 效 地 使 用 它们 。 因 
此 ,设计 了 使 用 视频 通道 (驾驶 员 和 道路 场景 视频 ) 、 驾 驶 员 的 讲话 和 CAN 总 线 
的 多 媒体 数据 标注 工具 (UTDAT) , 

伴随 该 工具 的 同时 ， 还 设计 有 一 个 驾驶 时 间 表 的 颜色 代码 (CCDT) ， 该 代码 
旨 在 从 事件 检测 的 多 个 通道 来 解释 驾驶 数据 。 使 用 这 两 个 工具 ， 可 以 放大 数据 的 特 
定 部 分 并 对 CAN 总 线 或 伴随 信道 进行 特定 的 分 析 。 用 于 开发 这 些 工 具 的 数据 库 是 
UTDrive 资料 库 。 更 广泛 的 UTDrive 资料 库 信 息 ， 如 数据 收集 过 程 、 数 据 结构 和 性 
能 等 都 能 在 参考 文献 [0] 中 找到 。 


20.2.1 数据 标注 工具 : UTDAT 


数据 标注 是 多 传感器 数据 分 析 的 最 关键 一 步 ， 因 为 它 提供 了 进一步 信号 处 理 的 
基础 。 应 该 指出 的 是 ， 虽然 路 段 被 分 配给 不 同 的 任务 ， 然 而 使 用 这 些 信息 驾驶 活动 
也 能 被 检测 出 来 ， 数 据 收集 在 真实 的 交通 中 ， 其 本 质 是 高 度 动态 的 。 因 此 ， 需 要 标 
记 这 些 事件 和 任务 ， 以 记录 它们 的 时 间 标 记 (开始 和 结束 )。 对 于 这 个 特定 的 研 
究 ， 目 的 是 识别 操作 驾驶 并 检测 驾驶 员 是 否 分 心 ， 因 此 ， 在 每 次 运行 中 需要 准备 两 
个 不 同 的 转录 文件 。 首 先 ， 使 用 视频 流 和 CAN 总 线 渠 道 ， 使 用 6 个 不 同 的 标签 来 
标记 驾驶 事件 : 右 转 (RT), Ae (LT)、 变 换 车 道 (LC)、 和 车 道 保 持 直 线段 
(LKS) 、 车 道 保持 在 弯曲 段 (LKC) 和 停止 (ST) 。 这 些 事件 构 成 了 驾驶 事件 的 时 
间 线 ， 用 来 解析 会 话 中 需要 进行 分 别 检查 的 有 意义 部 分 。 第 二 ， 转 录 涉 及 12 个 重 
要 的 视频 和 音频 流 一 起 使 用 的 任务 相关 的 时 间 标 记 。 这 12 个 任务 是 : 驾驶 员 会 谈 
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(DT) 、 实 验 者 会 谈 (ET) 、 导 航 指令 (NI), VOR (SI)、 告 知 对 话 系 统 (TM), 
给 航空 公司 打 电 话 (AA) 、 更 换 车 道 (LP) 、 一 般 任务 (CT) 、 和 警示 牌 认 读 (SR), 
听 音 乐 (MP) 以 及 两 个 额外 与 驾驶 员 响 应 相关 的 标记 ， 即 中 断 的 话语 (IU) 和 响 
应 延迟 (RD), UTDAT 数据 标注 工具 使 用 MATLAB 的 GUI 进行 编写 ， 如 图 20.1 
所 示 。 
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图 20.1 UTDAT 多 媒体 数据 标注 工具 能 够 交叉 引用 并 同步 
两 个 视频 、 一 个 音频 和 CAN 总 线 流 





20.2.2 ”彩色 编码 的 驾驶 时 间 明 细 表 ( CCDT) : 一 种 新 颖 的 研究 CAN 
总 线 方法 

为 了 方便 分 析 大 型 的 多 种 感知 的 驾驶 数据 ， 准 备 了 一 个 彩色 编码 的 开车 时 间 明 
细 表 ， 用 恰当 的 颜色 标记 每 个 事件 和 任务 标 答 ， 并 把 它们 投影 到 两 条 平行 的 时 间 线 
上 。 一 个 关于 驾驶 时 间 线 的 例子 在 图 20.2 中 ， 图 中 同时 给 出 了 彩色 编码 的 驾驶 时 
间 明 细 表 (CCDT) 的 说 明 。 

使 用 CCDT， 可 以 在 一 个 会 话 中 同时 观察 到 事件 以 及 辅助 任务 。 这 个 可 视 化 工 
具 在 进一步 分 析 阶 段 中 得 到 大 量 应 用 ， 利 用 在 时 间 表 的 任务 和 事件 之 间 的 重 套 ,来 
建立 注意 力 分 散 /工作 负载 假设 。 
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次 要 任务 
次 要 任务 
DT: 驾驶 员 谈话 驾驶 事件 
CET: 实验 者 谈话 “DT: 右 转 驾驶 事件 
NI: 导航 指令 “LT: 左 转 
“SE 安静 "LC: 车 道 更 换 
* TM: Tell-Mex] i$ .LKC: 弯曲 段 车 道 保持 
* AA 美国 航空 对 话 ‘LKS: 直线 段 车 道 保 持 
“LP: 车 道 变换 提示 .ST: 停止 (黑色) 
“CT: 常见 任务 
"SR: 标准 阅读 


“MP: 音乐 欣赏 
“TU: 中 断 的 对 话 
* RD: 响应 延迟 


图 20.2 CCDT 描绘 的 驾驶 事件 ( 黑 带 ) 和 任务 (白色 带 ) 时 间 明 细 表 











20.3 系统 和 应 用 


一 个 针对 主动 车 辆 安全 (AVS) 结构 的 应 用 分 类 在 图 20. 3 中 给 出 。 对 于 环境 
识别 和 异常 检测 ， 其 应 用 可 以 是 ， 中 通用 的 ; @ 针 对 专人 的 。 通 用 系统 的 预期 是 以 
其 合理 的 可 靠 性 以 及 可 接受 的 误 警 率 (不 到 2% ) 能 被 95% 的 驾驶 员 接 受 。 设 计 
这 样 一 个 通用 的 系统 很 困难 ， 因 为 驾驶 任务 具有 很 高 的 动态 性 ， 包 括 不 同 驾 驶 员 和 
条 件 的 变化 ， 其 至 同一 驾驶 员 在 同一 路 线 上 驾驶 两 次 ,情景 也 会 存在 差异 。 先 前 的 
研究 已 经 集中 在 使 用 非 最 优 特征 矢量 的 随机 方法 中 ， 来 设计 环境 识别 与 异常 检测 的 
通用 系统 '"1 。 与 通用 系统 不 同 ， 这 些 系统 是 依赖 于 人 的 ， 以 减少 驾驶 员 的 变化 对 
识别 性 能 的 影响 。 然 而 ， 驾 驶 员 相 关 的 AVS 系统 需要 个 人 的 驾驶 特性 和 生物 识别 
技术 ， 并 将 其 存储 在 车 载 系统 中 。 轰 驶 员 相 关 的 AVS 预计 至 少 有 3 T TES. 
中 驾驶 员 身 份 一 使 用 讲话 者 的 面部 识别 或 智能 钥匙 ， 以 降低 驾驶 员 监 测 的 复杂 
TE; 书 操 作 / 环 境 识别 一 一 监视 和 识别 驾驶 环境 以 减少 异常 检测 任务 的 复杂 性 ; 
@ 异 常 检测 一 一 考虑 到 特定 的 驾驶 员 特 性 /模型 和 环境 ， 这 种 模式 能 够 检测 到 异常 
( 即 由 于 注意 力 分 散 、 嗜 睡 以 及 注意 力 不 集 中 等 造成 的 ) 。 一 个 驾驶 员 相 关 的 框架 
在 之 前 就 已 经 设计 和 评估 过 了 。 
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“ 存储 驾驶 员 。 - 辅助 驾驶 员 
行为 特征 的 智 ”的 反馈 或 警告 
能 ID 卡 


“ 有 一 个 预览 窗口 经 常 使 用 额外 
的 传感器 输入 ， 如 视觉 和 雷达 
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图 20.3 根据 数据 /结构 以 及 输出 /最 终 用 途 将 车 辆 主动 安全 (AVS) 系统 进行 分 类 


20.3.1 通用 的 操纵 识别 和 分 心 检 测 

在 通用 的 方法 中 ,假定 没有 可 用 的 域 信息 ， 而 信号 的 模式 可 以 使 用 通用 信号 处 
理 方法 进行 识别 。 基 于 与 语音 信号 以 及 其 处 理 方法 的 类 比 ， 对 驾驶 信号 进行 了 考 
虑 。 这 个 类 比如 图 20. 4 所 示 。 
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图 20.4 语音 识别 和 操纵 识别 单元 的 层次 结构 
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这 种 方法 使 用 HMM 来 对 操作 和 中 性 /分 心情 况 下 的 操作 进行 建 模 ， 其 综合 结 
果 在 参考 文献 [6] 中 给 出 。 在 自 下 而 上 (BUT) 的 方法 中 ， 一 个 单独 的 子 单元 是 
整个 识别 算法 的 主要 考虑 成 分 。 对 定义 在 路 线 上 的 各 个 操作 都 将 获得 一 个 单独 的 
HMM， 路 线 模型 可 以 通过 内 部 语义 和 语法 结构 来 构建 。 

根据 这 种 方法 ， 可 以 发 现 所 有 操作 的 “drivemes”， 并 用 来 建立 操作 模型 。 这 
些 操作 模型 可 以 用 来 构建 多 操作 模型 ， 并 最 终 完成 路 线 。 与 之 对 应 的 ， 在 自 上 而 下 
(TB). 的 方法 中 ， 一 个 有 大 量 状态 的 单独 HMM 将 被 训练 。 通 过 这 种 方式 ， 我 们 假 
设 关 于 这 个 操作 没有 已 知 的 先 验 信 息 。 我 们 进一步 假设 有 一 个 有 意义 的 数据 序列 的 
记录 ， 这 个 序列 由 一 些 单元 组 成 ; 然而 ， 我 们 不 对 它们 的 持续 时 间 插 和 限制。 在 训 
练 这 个 HMM 框架 后 ， 将 使 用 某 些 剪 枝 技 术 ， 包 括 聚 类 和 Viterbi 算法 ， 来 确定 哪个 
状态 在 独立 的 HMM 中 占 主 导 ， 路 线 的 一 部 分 被 称 为 一 个 操作 ， 将 作为 一 个 观察 序 
列 。 发 现 的 占 主导 地 位 状态 可 以 并 置 (状态 捆绑 ) 来 表示 特定 的 操作 ， 因 此 可 以 
得 到 该 路 线 的 最 终 HMM 模型 。 使 用 HMM 框架 ， 它 可 以 分 别 识别 112 个 右 转 动作 
中 的 10096 、29 个 左 转弯 动作 中 的 93% 以 及 70 个 车 道 变 化 事件 中 的 8190, BB 
驶 员 注 意 力 分 散 的 检测 ， 其 LC 或 LT 操作 可 以 识别 10096 的 分 心 四 驶 员 ， 然 而 对 于 
RT 不 能 获得 相同 的 结果 。 因 为 这 个 方法 不 能 同时 使 用 CCDT 分 层 技术 ， 训 练 数 据 
并 不 代表 标记 为 驾驶 员 分 心 的 操作 基准 。 我 们 假设 所 有 分 心 会 话 中 的 操作 都 代表 了 
注意 力 分 散 数据 ， 然 而 事实 未 必 如 此 。 

为 了 改善 基准 并 执行 更 精细 的 通用 操作 识别 ， 利 用 UTDAT 和 CCDT， 以 及 一 
个 使 用 FFT 的 更 简单 方法 来 实施 。 根 据 这 个 新 的 分 析 ， 得 到 如 图 20. 5 所 示 的 明显 
分 开 的 操作 集群 。 通 过 使 用 几何 定义 的 决策 表面 ， 操 作 能 够 很 好 地 识别 。 结 果 在 表 
20.1 中 给 出 四。 通过 使 用 SVM 来 优化 决策 表面 ， 识 别 的 结果 被 进一步 改善 ， 对 混 
消 现 象 只 发 生 在 LKC 和 LKS 之 间 的 操作 ， 精 确 度 能 够 达到 99% 。 可 以 理解 ， 每 个 
驾驶 员 都 有 不 同 的 基线 ， 即 使 是 相同 的 驾驶 员 ， 同 一 路 线 ， 数 据 也 不 尽 相 同 ， 因 此 
依赖 于 驾驶 员 的 方法 可 以 用 于 注意 力 分 散 的 检测 。 

表 20.1 使 用 FFT 和 几何 决策 表面 来 进行 通用 操作 的 识别 性 能 





















































正确 的 检 出 率 TPR = TP/P 93. 7% 
错误 的 检 出 率 FPR = FP/P 0. 896 
精确 度 ACC = (TP + TN) /(P + N) 93.7% 
特异 性 SPC =1 -FPR 99. 0% 
正 预测 值 PPV = TP/(TP + FP) 95. 896 
负 预 测 值 NPV = TN/(TN + FN) 99.1% 
错误 的 发 现 率 FDR = FP/(FP + TP) 4. 196 
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120.5 对 6 个 操作 的 CAN 总 线 信号 的 第 一 FFT 系数 的 三 维 散 点 图 











20.3.2 ”特定 驾驶 员 的 分 心 检测 


对 于 特定 驾驶 员 的 方法 ， 它 通过 消除 来 自驾 驶 员 特 性 之 间 的 变化 ， 特 别 适 
合 检 测 鸭 驶 员 注 意 力 分 散 程度 。 如 果 算 法 在 操作 识别 之 后 使 用 ， 可 以 进一步 减 
少 变化 量 。 根 据 驾 驶 员 个 人 特征 的 鲁 棒 系统 的 需求 ， 参 考 文献 [7, 8] 提出 了 
一 个 集成 的 缩小 方法 。 驾 驶 员 特 定 的 系统 显示 在 图 20.6 所 示 的 框图 中 。 为 了 
辨别 驾驶 员 的 身份 ， 使 用 租 入 的 30s 驾驶 员 的 语音 ， 采 用 了 一 个 辨别 说 话 者 ID 
的 系统 ， 通 过 对 9 个 区 驶 员 的 训练 ， 可 以 得 到 100% 的 精确 度 。 当 持续 时 间 减 
到 10s 时 ， 准 确 度 下 降 至 91% ， 进 一 步 削减 5s 和 2s， 准 确 度 分 别 达到 86% 
Fil 6896 。 

我 们 认为 ， 已 经 证 明 的 生物 信号 ， 如 语音 、 指 纹 和 人 脸 识别 等 都 可 用 于 驾驶 员 
的 身份 识别 。 尽 管 CAN 总 线 信和 号 携带 重要 的 个 人 特征 ， 基 于 CAN 总 线 识 别 的 性 能 
远 低 于 其 他 生物 识别 系统 (其 精确 度 在 83% ~90% 之 间 ) 。 

这 里 描述 的 依赖 于 驾驶 员 的 识别 系统 ， 使 用 了 基于 GMM/ UBM 的 结构 来 进行 
注意 力 分 散 程 度 检测 。 在 所 有 操作 中 ， 平 均 的 分 心 检测 性 能 达到 70% 。 然 而 ， 该 
系统 对 中 性 事件 的 识别 精确 度 无 法 高 于 70% 。 因 此 ， 误 报 率 预 计 约 为 30% ， 这 在 
最 终 的 安全 应 用 中 是 不 被 接受 的 。 在 使 用 UTDAT 和 CCDT 工具 之 后 ， 可 以 在 驾驶 
时 间 线 上 获得 代表 基准 的 更 好 数据 。 基 于 高 频 内 容 、 样 本 一 致 性 和 标准 偏差 ， 使 用 
驾驶 员 特 定 的 性 能 指标 (使 用 UTDAT 和 CCDT 工具 ) 和 对 分 心 检测 的 更 精细 分 
析 ， 能 使 检测 结果 提高 至 95% ， 如 参考 文献 [9] 报道 。 
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: 多 模 态 生 物 : 
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图 20.6 依赖 于 驾驶 员 的 操作 识别 和 分 心 检测 系统 


20.4 小 结 





长 时 间 段 运行 的 CAN 总 线 信号 分 析 ， 为 真正 以 人 为 本 系统 的 开发 提供 了 一 种 


it, BRRAY 
和 辅助 系统 中 的 重 


只 别 环境 /操作 ， 检 测 注意 力 分 散 程度 等 功能 ， 是 驾驶 员 状 态 监测 
要 模块 。 本 章 小 结 了 在 过 去 的 1.5 年 中 ， 对 于 UTDrive 项 目 中 的 


CAN 总 线 分 析 的 最 新 发 现 ， 开 发 了 两 个 重要 的 数据 挖掘 工具 ， 并 发 现 它 对 多 媒体 


数据 分 析 极为 有 利 。 
证 息 。 这 个 隐蔽 的 





CAN 总 线 信号 可 以 携带 有 关 环 境 信息 和 驾驶 员 吴 份 等 重要 的 
信息 碎片 可 以 显 式 化 ， 并 解读 为 在 系统 设计 结合 人 类 因素 的 主动 
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第 21 音 ”车载 通 信 网 络 间 实 时 多 媒体 流 的 
自 适应 差错 恢复 机 制 


Matteo Petracca, Paolo Bucciol, Antonio Servetti 和 Juan Carlos De Martin 


摘要 : 为 了 允许 有 少量 损失 的 实时 数据 流 ， 如 在 车 间 通 信 系 统 网 络 中 的 多 媒体 
流 ， 我 们 提出 了 一 种 基于 主动 纠 错 和 交叉 算法 技术 的 跨 层 技术 。 基 于 实时 约束 下 的 
网 络 层 信息 ， 该 技术 优化 了 FEC (Forward Error Correction ， 前 向 纠 错 ) 交叉 信道 编 
码 参 数 。 它 是 在 数据 包 级 别 上 实施 的 ， 允 许 在 现 有 的 无 线 电 设备 中 实现 自 适 应 。 依 
靠 符合 标准 的 、 实 时 的 RTCP (Real Time Control Protocol， 实 时 传输 控制 协议 ) 的 
报告 ， 我 们 开发 并 优化 了 一 种 自 适 应 技术 ， 来 匹配 信道 的 快速 变化 ， 不 仅 能 够 通过 
主动 的 错误 恢复 体制 减少 所 需 的 开销 ， 还 能 够 减少 由 梳 状 滤波 器 所 引入 的 附加 延 
iR, TRAE Gilbert- Elliott 无 线 信 道 模型 的 仿真 表明 ， 我 们 所 提出 的 自 适应 技术 ， 
在 没有 经 过 优化 时 ， 在 标准 传输 下 就 可 在 视频 PSNR (Peak Signal to Noise Ratio， 
峰值 信 嗓 比 ) 方面 获得 超过 0.9dB 的 增益 ， 而 在 它 的 优化 版 本 中 ，PSNR 的 增益 超 
过 1.5dB， 其 开销 约 占 总 开销 的 12% 。 

关键 词 : 前 向 纠 错 (FEC); 车 间 通 信和 系统 网 络 ; 车 间 多 媒体 技术 ; 多 媒体 信 
号 处 理 ; VANET 


21.1 简介 


智能 运输 系统 中 ， 汽 车 之 间 的 通信 有 了 很 大 的 发 展 ， 同 时 配备 了 IEEE 802. 11 
无 线 接口 的 便携 设备 也 有 了 广泛 应 用 ， 在 实时 多 媒体 数据 流 的 基础 上 ， 促 进 了 无 线 
通信 服务 的 应 用 。 车 间 多 媒体 流 有 着 无 数 的 应 用 ， 其 范围 从 安全 服务 到 协同 驱动 以 
及 增值 服务 ， 例 如 广告 服务 和 信息 娱乐 节目 。 

然而 ， 以 IEEE 802. 11 标准 为 基础 的 车 间 通 信 系 统 信道 的 高 可 变性 ， 使 得 实 
时 多 媒体 信息 的 发 送 成 为 一 个 非常 具有 挑战 性 的 问题 中 。 在 VANET 之 间 的 媒体 
流 应 用 的 主要 缺点 是 ， 通 过 无 线 信道 的 数据 包 丢 失 比 例 太 高 。 即 使 多 媒体 信息 能 
允许 一 些 数据 包 的 丢失 ， 但 高 的 损失 实际 上 不 能 使 媒体 相对 于 它 的 原始 版 本 进 
行 准确 可 靠 地 重建 ， 因 此 不 能 保证 对 象 和 语音 识别 算法 所 必需 的 通信 质量 
要 求 。 

在 本 章 中 ， 我 们 解决 了 在 车 间 网 络 中 保护 实时 的 多 媒体 通信 问题 ， 来 保证 高 级 
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的 多 媒体 信号 处 理 技 术 所 必需 的 质量 。 

让 我 们 考虑 下 面 的 场景 ， 如 图 21. 1 所 示 ， 视 频 通信 软件 安装 在 同一 条 路 上 行 
驶 的 两 辆 车 上 。 前 车 向 后 车 传送 实时 视讯 信息 。 随 着 汽车 沿 着 道路 的 移动 ， 无 线 信 
道 受 到 由 于 环境 因素 所 引起 的 噪声 的 影响 ， 从 而 造成 了 多 径 衰 减 。 这 会 导致 可 变 的 
比特 误 码 率 ， 由 诸如 两 车 距离 、 车 间 存 在 物 以 及 两 车 相对 速度 等 许多 参数 所 决定 。 
这 些 参 数 的 某 一 组 合 可 能 会 导致 长 时 间 的 突 发 性 数据 包 丢 失 ， 其 结果 是 造成 间歇 性 
连接 。 当 这 种 情况 发 生 时 ， 除 非 采取 适当 的 应 对 措施 ， 否 则 所 考虑 的 视频 流 的 实时 
传输 是 不 可 行 的 。 

数据 包 级 别 的 前 向 纠 错 (FEC) BUR, 能够 恢复 数据 包 的 丢失 ， 而 不 诉 诸 数 据 
包 的 重新 传送 请 求 (在 实时 约束 的 情况 下 ， 可 能 产生 很 高 的 延迟 )。 数 据 包 是 被 分 
组 成 块 后 传输 的 ， 并 且 在 给 定 的 块 中 数据 包 的 丢失 率 超过 宛 余 的 数据 包 百 分 比 之 
前 ， 它 们 的 丢失 是 可 以 恢复 的 。 如 果 已 知 信道 条 件 ， 那 么 发 送 端 可 以 调整 FEC 所 
占 百 分 比 ， 来 匹配 实际 的 信道 条 件 。 

这 种 机 制 在 假定 数据 包 丢 失 是 均匀 分 布 时 ， 运 行 是 良好 的 。 然 而 ，VANET 
的 传输 罕 发 性 数据 包 丢 失 非 常 严 重 时 ， 将 强烈 影响 属于 这 种 突 发 情况 的 数据 包 恢 
复 的 可 能 性 。 为 了 解决 这 个 问题 ， 在 本 章 中 ， 我 们 采取 数据 包 级 别 上 的 交叉 ,来 
将 长 的 连续 错误 突 发 段 分 割 成 更 小 丢失 数据 包 序列 。 在 足够 的 约束 下 ， 我 们 证 明 
了 一 个 协同 作用 的 FEC /交叉 技术 能 够 始终 如 一 地 在 实时 约束 条 件 下 提高 传输 
质量 。 

接着 提出 了 我 们 建议 的 FEC 
技术 、 交 错 实时 保护 技术 (FIR) 
和 该 技术 的 优化 版 本 (FIRO)， 
该 版 本 可 以 动态 地 适应 信道 变化 
的 保护 强度 和 传输 延迟 。 通 过 基 
于 Gilbert- Elliott 无 线 信道 模型 的 
仿真 ， 我 们 所 提出 的 技术 得 以 验 
证 ,试验 表明 增益 可 高 达 0. 9dB， 
对 非 加 密 传 输 来 说 ，PSNR 为 
1. 5dB, 

本 章 其 余部 分 内 容 安排 如 下 : 
212 节 给 出 了 实时 多 媒体 流 原 。。 图 21.1 多 媒体 流 在 汽车 自 组 网 络 中 的 情况 
理 ; 21.3 节 和 21.4 节 是 对 我 们 
的 解决 方案 的 模块 描述 ， 即 FEC 和 交错 技术 以 及 所 得 到 的 非 自 适应 性 最 优 参数 ; 
在 21.5 节 曾 述 了 对 于 自 适应 情况 我 们 所 提出 的 解决 方案 ,包括 对 FIR 算法 、FIRO 
算法 以 及 关于 隔离 自 适应 FEC、 隔 离 自 适应 交错 和 普通 传播 下 的 性 能 评估 ; 最 后 ， 
21. 6 节 小 结 本 章 。 
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21.2 实时 多 媒体 流 


数据 通信 实时 数据 传输 机 制 的 要 求 与 传统 的 数据 通信 有 着 明显 的 差异 。 例 如 ， 
实时 传送 要 求 限制 使 用 重 传 来 恢复 丢失 的 数据 包 ， 所 以 传输 控制 协议 (TCP) 不 适 
合 这 种 情况 。 相 反 ， 在 RFC 355001 指 定 的 实时 传输 协议 (RTP), 事实 上 是 用 于 在 
IP 网 络 上 提供 有 实时 内 容 的 数据 传播 的 标准 。 

要 在 接收 器 处 启用 数据 的 实时 传输 和 播 出 ， 那 么 RTP 数据 包 要 携带 感 测 信息 ， 
例如 序列 号 和 时 间 标 记 。 一 个 RTP 包 中 可 能 包含 一 个 或 多 个 编 解码 器 帧 ， 并 且 具 
备用 于 发 送 数据 包 不 断 递增 的 序列 号 和 随 着 采样 时 钟 速率 增加 的 时 间 标 记 。 

RTP 接收 器 使 用 序列 号 来 检测 丢失 的 数据 包 ， 使 用 时 间 标 记 字 段 来 确定 什么 时 
候 发 出 接收 到 的 数据 。 

RTP 控制 协议 (RTCP) À 是 用 来 监视 服务 质量 以 及 传输 与 正在 进行 会 话 参与 
者 相关 的 信息 。 基 本 上 ，RTCP 携带 与 RTP 会 话 参 与 者 相关 的 长 期 统计 信息 [ 例 
如 ， 平 均 数据 包 丢 失 率 (PLR) 、 往 返 时 间 和 抖动 等 ]。 完 整 的 实时 多 媒体 流 过 程 


如 图 21.2 所 示 。 
服务 器 | 信道 
原始 数据 

















应 用 层 
(ISO-OSI 5-7) 





网 络 层 
(ISO-OSI 3-4) 
物理 层 与 数据 链 路 层 








到 21.2 使 用 RTP 和 RTCP 的 实时 多 媒体 流 


在 这 项 工作 中 ， 我 们 将 讨论 RTCP 报告 如 何 支持 RTP 传输 ， 来 跟踪 无 线 信道 的 
频繁 变化 ， 以 提供 能 从 存在 数据 包 丢 失 率 的 接收 器 上 接收 定期 反馈 的 问题 。 定 时 的 
反馈 将 被 用 在 发 送 端 ， 用 来 根据 信道 特性 调整 发 送 策略 ， 以 便 使 最 终 用 户 获 得 到 最 
佳 的 视频 质量 。 引 入 了 差错 控制 技术 ， 针 对 时 变性 和 突 发 性 的 数据 包 丢 失 问题 来 提 
高 通信 可 靠 性 。 事 实 上 ，IEEE 802. 11 链 路 层 重 传 只 在 更 短 的 时 间 尺 度 以 及 在 面 对 
短期 波动 (快速 衰落 ) 是 有 效 的 ; 在 更 持久 的 波动 ( 慢 衰 落 ) 和 高 机 动 性 的 情况 
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下 ， 这 些 机 制 的 效率 非常 低下 。 应 用 级 错误 控制 技术 可 在 更 长 的 时 间 尺 度 上 提供 额 
外 的 可 靠 性 ， 在 接 下 来 的 内 容 中 将 对 此 进行 描述 ， 跨 层 的 集成 可 以 根据 由 RTCP 产 
生 的 通道 损失 趋势 报告 来 权衡 差错 控制 的 竞争 力 和 传输 开销 之 间 的 折衷 。 


21.3 前 向 纠 错 


通用 前 向 误差 校正 是 一 种 与 编码 解码 器 无 关 的 方法 ， 它 通过 向 传输 流 增加 多 余 
的 数据 来 防止 传输 中 数据 包 的 擦 除 ， 从 而 保护 在 数据 包 中 传递 的 信息 。 在 这 项 工作 
中 ,我们 使 用 了 一 个 常用 的 方法 用 于 生成 FEC 数据 ， 它 携带 一 组 数据 包 的 有 效 载 
和 荷 ， 并 在 这 些 有 效 载荷 上 应 用 二 进 制 巡 辑 异 或 运算 (XOR) 操作 。 该 方案 在 一 个 
原始 数据 包 丢 失 的 情况 下 ， 人 允许 恢复 技 失 的 数据 ， 但 FEC 数据 包 被 正确 地 接收 。 
以 XOR 逻辑 和 运算 操作 为 基础 ， 使 用 一 般 的 FEC 的 RTP 负载 格式 已 发 表 于 
RFC 5109 ^ , 

近 几 年 ， 一 些 研究 已 经 使 用 了 众所周知 的 误差 校正 码 ， 诸 如 Reed-Solomon!” 
码 ， 来 恢复 数据 包 的 丢失 。 然 而 ， 更 复杂 的 方案 的 弱点 是 计算 的 复杂 性 ， 对 宛 长 的 
数据 包 和 大 量 的 奇偶 校 验 包 ， 可 能 会 引起 性 能 上 的 问题 。 这 就 是 为 什么 我 们 把 本 章 
的 范围 限制 在 只 基于 XOR 的 FEC 码 内 。 然 而 ， 这 里 所 讨论 的 基本 原则 ， 可 以 很 容 
易 地 扩展 到 其 他 类 型 的 线性 码 上 。 

图 21. 3 给 出 了 使 用 在 RFC 5109 上 定义 的 通用 FEC 的 两 个 基本 方案 。 在 本 章 
中 ， 我 们 采用 函数 定义 / (x，y，…) ， 来 表示 当 XOR 逻辑 运算 施加 到 数据 包 x，y 
上 时 ， 所 生成 的 FEC 数据 包 。 假 设 在 这 两 种 情况 下 FEC 流 均 能 被 正确 地 接收 ， 在 
图 21. 3a 中 ， 有 一 个 数据 包 丢 失 ， 每 3 个 数据 包 (在 原始 的 媒体 流 ) 才 可 以 恢复 ; 
而 在 图 21. 3b 中 ， 每 一 个 数据 包 的 损失 都 可 以 恢复 。 


a | b | c | d | e | T^ | 主流 
f(a,b,c) | ‘fl(qd,e,f) | FEC 流 
a) 
a | b | c | d | e | f | 主流 
f(a) © fbc) | f(e,d) | "flde) | Wee f) | FEC 流 


b) 


图 21.3 两 种 使 用 了 RFC 5109 定义 的 一 般 FEC 码 的 基本 样 图 





















































显然 ， 因 为 多 余 开销 ， 这 两 个 方案 都 需要 更 多 的 网 络 带宽 。 图 21. 3a 中 ， 表 示 
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FEC 3:1, FA 3396 的 开销 ， 每 3 个 数据 包 发 送 1 个 FEC 包 ; 而 图 21. 3b 是 表示 
1:183 FEC, 51A T 100% 的 开销 。 一 般 情况 下 ， 一 个 FEC i: 1 表示 对 于 每 i 个 数据 
包 ， 将 产生 一 个 FEC &, 5$ (10071) 96 的 开销 。 

在 实际 中 ， 媒 体 流 和 FEC 流通 常 是 使 用 相同 的 传输 介质 传送 的 。 这 就 是 为 什 
么 我 们 不 能 认为 数据 包 丢 失 只 发 生 在 媒体 流 里 ， 因 为 两 种 流 都 存在 有 可 能 发 生 类 似 
错误 的 特点 。 在 网 络 透 视图 中 ， 假 设 媒 体 流 和 FEC 流 形 成 一 个 单一 的 同时 含有 媒 
体 和 FEC 包 的 数据 流 是 真实 的 。 给 定 一 个 媒体 和 FEC 数据 包 的 序列 ， 在 对 给 定 序 
列 使 用 不 同 种 的 FEC 模式 后 ， 当 我 们 考察 残留 介质 的 数据 丢失 率 时 ， 我们 可 以 很 
容易 地 看 到 错误 恢复 率 的 变化 。 男 外 ， 在 图 21.4 中 ， 我 们 同时 绘制 了 真正 的 车 辆 
间 无 线 传输 跟踪 的 网 络 层 数据 包 丢 失 率 ， 与 绘制 在 图 21.3a、b 中 应 用 层 FEC 数据 
包 丢 失 率 。 显 然 ， 被 引入 的 开销 越 多 ， 媒 体 数据 包 丢 失 率 就 会 有 更 多 的 降低 。 


80 

















一 一 无 FEC 
== = FEC 3:1 


70r 











时 间 /s 


图 21.4 应 用 层 的 数据 包 丢 失 率 作为 时 间 的 函数 在 两 个 通用 XOR FEC 方案 下 与 无 FEC 
相 比 的 情况 ( 当 FEC1: 1 时 ， 开 销 是 100% ，FEC3:1 时 ， 开 销 为 33% ) 





然而 ， 降 低 的 损失 率 低 于 我 们 的 预期 。 这 是 因为 无 线 传输 的 高 数据 包 丢 包 率 ， 
通常 是 通过 相关 的 〈 相 邻 的 ) 数据 包 损失 而 引起 的 。 在 这 种 情况 下 ， 损 失 分 布 
( 即 丢失 模式 ) 是 一 个 关键 参数 ， 该 参数 决定 了 FEC 性 能 。 集 群 损失 大 大 降低 了 
FEC 的 效率 ， 并 降低 了 解码 质量 。 很 显然 ， 在 应 用 级 的 分 组 丢失 率 不 仅 依赖 于 数 
据 包 的 丢失 率 ， 而 且 依赖 于 那些 数据 包 的 丢失 。 

可 以 用 来 解决 这 个 问题 的 方法 是 使 用 交错 技术 ， 在 不 同 数据 包 之 间 来 传播 相 邻 
Wwe! ， 这 在 2. 4 节 中 进行 描述 。 
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21.4 数据 包 交 错 技 术 


我 们 探索 一 个 简单 的 数据 交错 技术 方案 ,来 将 突 发 丢 包 转换 成 同等 数量 的 孤立 
丢 包 ， 这 样 使 用 前 向 错误 控制 更 容易 恢复 。 相 比 其 他 类 型 的 错误 复原 技术 ， 数 据 包 
分 组 交错 具有 这 样 的 优点 : 中 计算 简单 ; @ 不 要 求 比 特 率 的 任何 增加 。 此 外 ， 数 据 
包 分 组 交错 技术 可 以 很 容易 地 与 FEC 技术 耦合 。 

数据 包 交 错 的 一 个 潜在 缺点 是 ， 它 ID 204] 37] 70.23) [10] 
需要 附加 的 延迟 。 交 错 延迟 在 高 互动 性 | 42) SIS] 68] (4.5.6) [11] 
的 应 用 中 是 特别 关注 的 问题 ， 如 网 络 电 7] 8[6] o9] 70.89) [12] 








话 ， 人 们 无 法 容忍 延迟 超过 400 ms" , _ n 
3 BE ` > ea Ds LES 

AIT, BHREUESENMISORT TOES — mors Seki and nage 
长 度 特性 ， 一 般 可 以 绑 定 到 相对 较 短 的 m =3 的 分 组 交错 器 支持 根据 数据 





值 ， 因 此 即使 在 这 种 应 用 中 ， 采 用 了 这 包 序列 后 括号 中 的 数字 按 列 发 送 

种 技术 的 端 到 端 延迟 通常 也 是 可 接受 

的 。 由 于 存在 有 许多 交错 技术 方法 ， 我 们 将 介绍 在 这 项 研究 中 使 用 的 具体 数据 包 分 
组 交错 策略 。 

一 个 简单 的 数据 包 交 错 技术 采用 的 排列 数据 包 传 输 的 顺序 表示 在 图 21.5 中 。 
在 发 送 端 ， 数 据 包 首先 按 行 写 入 到 交错 带 中 ， 每 一 行 对 应 于 一 个 n 个 包 的 块 ， 其 
中 ， 存 在 k = n-1 是 数据 包 ， 最 后 一 个 是 基于 XOR 运算 的 FEC 包 。 然后 , 一 旦 m 
行 的 数据 包 填 满 ， 数 据 包 将 按 列 传输 。 在 接收 端 ， 当 使 用 时 间 标 记 和 序列 号 的 数据 
包 顺 序 重新 排列 时 ， 损 失 脉 冲 串 将 转换 成 单独 的 丢 包 。 假 设 考虑 这 样 的 情况 ， 传 输 
的 信道 在 传输 前 3 个 数据 包 过 程 中 发 生 突 发 长 度 为 3 的 丢 包 。 使 用 图 21.5 所 示 的 
(n, m) 交错 器 ， 突 发 丢 包 影响 孤立 的 数据 包 1，4 和 7， 而 不 是 连续 包 1，2 和 3。 

交错 右 的 有 效 性 依赖 于 块 的 大 小 和 交错 深度 ， 以 及 信道 的 丢 包 特性 。 在 交织 深 
HE m, 一 个 长 度 B 的 突 发 丢 包 可 以 被 转换 成 一 个 较 短 的 脉冲 ， 其 最 大 长 度 为 
[B/m |， 其 中 [x |] 表示 不 小 于 x 的 最 小 整数 。 在 理想 的 情况 下 ， 当 mm 三 B 时 ， 突 
发 丢 包 可 转换 成 孤立 的 丢 包 。 

在 这 种 情况 下 ， 任 何 两 个 损失 之 间 的 间距 是 nn 或 n -1。 较 大 的 交错 絮 是 更 有 
效 的 ， 它 可 以 将 更 长 的 突 发 损 包 转换 成 孤立 丢 包 ,或 者 增 大 所 转换 成 的 孤立 丢 包 的 
间距 ， 然 而 这 是 以 较 高 的 延迟 成 本 为 代价 的 。 在 客户 端 ， 应 用 交错 技术 接收 到 的 数 
据 包 ， 直 到 它 所 依赖 的 数据 包 全 部 收 到 才能 使 用 。 对 于 一 个 (n,m) 325888, JE 
始 顺序 的 第 个 数据 包 会 受到 最 高 的 延 运 ， 因 为 它 要 被 发 送 到 第 ((n -1) xm) +1 
的 位 置 。 因 此 ， 对 应 于 一 个 (n, m) 交错 带 的 解码 延迟 是 

(n-1) xm (21. 1) 

而 且 在 数据 包 排 列 的 有 效 性 和 延迟 之 间 存 在 一 个 权衡 。 应 当 注 意 的 是 ， 这 里 的 
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RURA) 


PSNR/dB 





5 6 

交错 深度 

图 21.6 应 用 级 别 的 分 组 丢 包 率 和 PSNR 值 (虚线 ) 与 交织 深度 FECI: 1 
的 函数 关系 (作为 图 21.4 的 Foreman 排列 和 网 络 跟踪 ) 





总 延迟 不 是 典型 的 在 信道 编码 情况 产生 的 nx m 个 ， 因 为 我 们 并 没有 在 整个 交错 数 
据 上 施加 FEC 所 产生 的 延迟 5 。 

图 21.6 给 出 了 在 如 图 21. 4 所 示 的 真正 车 间 无 线 传输 跟踪 下 ， 相 同 的 FEC 方 
案 使 用 不 同 交错 长 度 的 优点 。 据 观察 可 得 ， 交 错 器 通过 将 突 发 丢 包 转换 成 隔离 的 丢 
包 ， 降 低 了 数据 包 丢 包 率 ， 从 而 使 经 过 逻辑 异 或 运算 (XOR) 的 FEC 方案 可 以 有 
效 地 恢复 丢失 的 数据 包 。 该 图 还 显示 了 通过 峰值 信号 噪声 比 (PSNR) 测量 方法 ， 
得 到 相应 接收 到 的 视频 流 的 质量 。 需 要 注意 的 是 在 网 络 层面 ， 这 两 种 情况 丢 包 的 总 
数 是 一 样 的 ， 所 不 同 的 仅仅 是 丢 包 的 模式 。 此 外 ， 我 们 可 以 清楚 地 看 到 ， 经 过 一 定 
的 交错 深度 ， 继 续 增加 交错 深度 几乎 没有 用 处 。 这 是 因为 交错 深度 等 于 或 大 于 网 络 
信道 的 平均 突 发 长 度 ， 并 且 该 值 是 足够 大 的 ， 能 够 从 突 发 数据 包 丢 包 的 传播 中 收 
益 。 在 21.5 节 中 ， 我 们 将 确定 在 某 些 应 用 相关 的 延迟 约束 下 ，FEC 余 量 和 交错 长 
RE (n, m) 的 最 优 组 合 。 


























21.5 自 适 应 FEC 和 交错 技术 


人 们 已 经 进行 了 很 长 时 间 的 研究 ， 以 改善 基于 FEC 的 错误 控制 机 制 。 主 要 研 
究 方 向 仍然 是 如 何在 所 有 的 通信 环境 下 ， 使 FEC 的 编码 大 小 自 适应 ， 而 不 是 使 用 
一 个 固定 的 FEC fi, 

一 些 研 究 所 提出 的 自 适应 FEC 方案 ， 以 Bernulli ^ 过 程 和 Gilbert- Elliott 模型 
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等 的 网 络 中 的 数据 包 丢 失 假设 为 基础 ， 根 据 优 化 模型 调整 代码 的 大 小 。 然 而 ， 采 用 
固定 模型 来 确定 无 线 信道 的 特性 ， nu goccia ipe iis 
好 。 在 时 间 和 速度 动态 变化 的 环境 中 ， 找 到 一 个 合适 的 模型 仍然 是 一 个 重大 的 研究 
课题 。 因 此 ， 我 们 提出 了 Aas. Me eI 
信道 条 件 ， 并 由 此 根据 在 接收 器 端 来 自 损 坏 的 数据 包 的 通知 调整 FEC 码 的 强度 。 
通过 RTOP 报告 的 方法 ， 在 网 络 层 的 丢失 模式 能 定期 发 送 回 接收 器 ， 从 而 提供 了 流 
服务 器 沿 着 视频 媒体 流 来 自 适应 FEC 强度 的 可 能 性 。 所 提出 的 闭环 FEC 和 交错 实 
时 保护 技术 及 它 的 优化 版 本 (FIRO) 的 实施 原理 图 如 图 21.7 所 示 。 

在 下 面 的 内 容 中 ， 首 先 提出 了 FIR 和 FRO 技术 ,然后 经 过 孤立 的 自 适 应 
FEC、 扳 立 自 适应 交错 以 及 纯 传输 来 评估 它们 的 性 能 。 在 所 有 的 模拟 中 ， 按 照 2 AR 
态 Gilbert- Elliott 模型 对 该 频道 建 模 。 


服务 器 | T 客户 端 


10) 2G) 30) A(1,2,3) 
| 4Q) 5(5) 6(8) (4,5,6) 


7G) 86) 99) 70.89) 缓存 重建 数据 


































自 适应 
FEC+ 交 错 技术 


短期 、 长 期 数据 包 丢 失 率 和 突 发 性 估算 通过 搭载 方案 实现 的 实时 适应 性 
图 21.7 FEC 和 交错 的 实时 防护 技术 实现 区 

















21.5.1 FEC 和 交错 实时 保护 技术 (FIR) 


所 提出 的 基于 XOR 的 自 适应 FEC 方案 ， 使 用 由 RTCP 定期 报告 的 平均 丢 包 率 
Pp 来 调整 要 发 送 的 FEC FSC, SEF XOR 运算 的 FEC 协议 从 天 个 媒体 数据 包 中 
产生 了 附加 的 多 余数 据 包 ， 它 能 够 克服 在 n =k +1 时 连续 数据 包 中 单个 数据 包 的 丢 
失 。 考 虑 到 即使 FEC 数据 包 也 可 能 会 受 丢 包 的 影响 ， 这 里 提供 了 一 个 弹性 机 制 来 
应 对 最 大 数据 包 丢 失 率 为 p=1]m。 因 此 ， 根 据 诸 如 由 RTCP 反馈 所 提供 的 平均 分 组 
丢 包 率 的 测量 ， 可 以 通过 改变 由 FEC 数据 包 所 涵盖 的 媒体 数据 包 (k) 的 数目 不 断 
调整 元 余 量 ， 即 











Ee [7]-1 (21.2) 
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超过 了 可 接受 的 最 大 损失 率 临界 值 ， 流 媒体 服务 器 将 触发 FEC 自 适 应 ， 该 什 
可 能 会 有 所 不 同 ， 这 取决 于 在 视听 内 容 的 性 质 和 其 丢 包 的 弹性 特性 (例如 ， 根 据 
R (21.2)， 如 果 最 大 的 临界 值 被 设置 为 10% ， 最 大 的 上 值 将 被 设置 为 9) 。 

交错 矩阵 的 其 他 尺寸 ， 如 行 数 〈(m) ， 依 赖 于 实时 应 用 程序 可 以 容忍 的 整体 延 
迟 。 端 -端的 延迟 由 3 个 部 分 组 成 : 编 解码 器 的 延迟 、 网 络 延迟 和 播 出 延迟 。 后 者 
是 根据 由 网 络 传输 引入 的 拌 动 来 设置 的 ， 当 使 用 交错 存储 技术 时 ， 它 能 够 增加 ， 这 
样 它 就 能 容纳 交错 延迟 。 播 放 缓冲 器 的 大 小 在 传输 起 始 时 由 接收 器 来 设置 ， 在 媒体 
解码 之 前 ， 在 最 简单 的 情况 下 ， 它 通常 是 保持 恒定 的 。 所 以 ， 如 果 由 d, = d, do 
表示 ， 其 中 4 对 应 着 拌 动 分 量 ，d, 对 应 着 交错 分 量 ，m 的 值 作为 d RIS 的 函数 ， 可 
以 按 动态 地 计算 如 下 ; 











m=] (21.3) 


必须 要 考虑 的 另 一 个 问题 是 ， 当 处 理 随 着 时 间 的 推移 而 表现 出 不 同 数据 包 丢 包 
率 的 信道 时 ，FEC 自 适 应 模型 将 出 现 问题 。 接 收 器 报告 的 频率 ， 给 发 送 端 一 个 网 
络 丢 包 率 和 其 他 参数 的 估计 ， 可 能 减少 FEC 方案 的 响应 性 ， 得 到 次 优 的 FEC 效率 。 
高 频率 将 增强 发 送 端的 响应 ， 但 是 造成 连续 测量 间 较 大 的 差异 ， 并 可 能 导致 不 稳 
定 ， 就 更 不 必 说 过 高 的 反馈 流量 开销 了 。 男 一 方面 ， 低 频 具 有 良好 的 稳定 性 和 较 低 
的 开销 ， 但 响应 性 却 不 是 很 好 。 

每 次 发 送 端 收 到 一 个 带 有 当前 PLR 报告 的 RTCP 数据 包 ， 它 就 对 在 随后 的 时 间 
间隔 为 ($5(i)) 时 ,使 用 报告 的 PLR 的 值 (p(i-1)) 和 之 前 PLR 的 估计 值 
(p(i-1)), 根据 下 面 的 方程 来 计算 PLR 的 估计 值 p( 也 被 确定 为 长 期 PLR): 























PG) =p(i-1) xa+p(i-1)x(1-a) (21.4) 
其 中 必须 选择 在 该 式 中 存储 器 因数 a 的 值 , 来 提供 一 个 良好 的 降 噪 比 ， 同 时 保持 
一 个 合理 的 收敛 率 。 

整个 FIR 算法 可 归纳 如 下 : 

1. 计算 交 鲁 和 靛 的 最 大 允许 延 达 肝 间 


2. 定义 PLR 允许 的 最 大 得 

3. KAKI PLR 等 于 0 

4. KA FEC RACH HI T O ( 即 没 有 FEC Fe $f ait ) 
5. 在 发 送 数 据 包 时 

5 


5.1.1 BARK PLR 和 其 他 统计 数据 
5. 1. 2 UA EH] PLR 信和 大 于 PLR 允许 的 最 大 人 入， 那么 
5.1.2.1 更 新 FEC MZR AZ 
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21.5.2 FEC 和 交错 实时 优化 保护 技术 (FIRO) 


fr FIR 技术 中 ， 根 据 由 RTCP 报告 给 发 送 方 的 数据 包 丢 包 率 ， 来 调整 FEC 和 交 
错 器 的 参数 。 每 个 RTCP 所 报告 的 两 次 到 达 的 时 间 间 隔 被 认为 是 固定 的 。 这 种 选择 
从 一 方面 简化 了 FEC 和 交错 适应 算法 ， 它 不 依赖 于 其 他 变量 ， 但 在 另 一 方面 ， 减 
少 了 该 算法 的 适应 能 
通过 增加 改变 RTCP 所 报告 的 两 次 到 达 时 间 间 隔 的 可 能 性 ，FIRO 算法 在 其 先 
前 的 版 本 的 基础 上 得 以 扩展 。FIRO 通过 设置 一 个 初始 的 RTCP 两 次 到 达 的 频率 ， 
以 及 限定 了 两 次 到 达 的 时 间 间 隔 和 间隔 尺寸 的 变 分 ( 步 ) 的 最 小 和 最 大 的 值 来 开 
始 。 然 后 ， 根 据 实际 的 信道 条 件 ，RTCP 两 次 到 达 的 时 间 间 隔 将 进行 更 新 。 如 果 需 
要 更 迅速 地 适应 信道 变化 ， 或 更 准确 地 监视 信道 ， 即 如 果 当 前 的 估计 是 不 准确 的 或 
如 果 长 期 PLR 高 于 最 大 允许 的 PLR， 两 个 连续 的 RTCP 报告 之 间 的 时 间 将 减少 一 个 
步 长 ， 直 到 达到 两 次 到 达 的 时 间 间 隔 的 最 小 值 。 两 次 到 达 的 时 间 间 隔 通过 一 个 步 又 
即 可 增加 (这样 能 减 小 报告 的 频率 ) ， 直 到 在 所 有 其 他 情况 下 达到 最 大 允许 值 。 新 
的 两 次 到 达 的 时 间 间 隔 期 间 将 被 作为 RTP 扩展 添加 到 下 一 个 要 被 发 送 的 数据 包 上 。 
整个 FIRO 算法 可 以 概括 如 下 : 
TTE SE BE SU RC Pe VT EIS HT [i] 
AE X. PLR 允许 的 最 大 值 
AE X. PLR 的 准确 修 
设置 长 期 PLR 等 于 0 
WHE FEC 及 交 销 靛 的 参数 等 于 0 (BAT FEC f 
AB AX GR E 
1 WR RTCP TE; RESEBECBI, IBA 
.了 更 新 长 期 PLR 和 其 他 统计 数据 
2 UR TCHI PLR (E E PLR foi Kl, HA 
2.1 更 新 FEC TIGE A SURE 
2.2 如 朵 允许 的 话 ，RTCP PRENA KIAH DEIIRIES HIR] FIRE 
3m, WRAY PLR IH [B Ae 4 gii f& JR] B 25 4E EE PLR 准确 性 大 ， 

















a 


ADAADAAAAUN AWN 
M 


Pw. dee de dea 


z 
N 


6.1. 3. 1 AA fei ris, RTCP PREJA BUT [8] KAH F KE 
6. 1. 4 其 他 

6. 1. 4. 1 UR RENT, RTCP 两 次 到 达 的 有 时间 间 帮 期 问 增 加 
6. 1. 5 4R RTCP PYR BUS BH TRI TRI ra TR] ge s 

6. 1. 5. 1 将 新 的 RTCP PAR BTA AY [RT [RT [e 3. EB 3 ds eu 
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21.5.3 性 能 评估 


为 了 测试 FIR 和 FIRO 算法 的 性 能 ， 模 拟 了 一 个 65s 的 视频 流 在 公路 情境 下 两 
辆 车 之 间 传 输 。 输 入 视频 流 呈 已 经 以 30 帧 /s、9 包 / 帧 、600kbits 的 方法 使 用 
H. 264/ AVC 编 解码 器 呈 进行 了 压缩 。 使 用 了 一 个 2 状态 Gilbert- Elliott 模型 ， 在 平 
均 丢 包 率 为 10% ， 平 均 突 发 错误 长 度 为 3 个 数据 包 的 情况 下 ， 建 立 了 信道 的 模型 。 
根据 参考 文献 【7] ， 人 允许 的 最 大 传输 延迟 已 设置 为 400ms ， 最 大 允许 数据 包 丢 包 率 
设 定 为 5% 。 对 于 FIR 算法 ，RTCP 两 次 达到 的 间隔 时 间 已 经 设置 为 等 于 1s， 而 对 
于 FIRO 算法 ， 它 可 以 从 最 小 0. 1s 到 最 大 1s 变化 ， 以 0. 1s 的 间隔 尺寸 递增 /递减 。 
视频 数据 流 的 接收 质量 是 通过 峰值 信号 一 噪声 比 (PSNR) 方法 进行 评 佑 的。 以 下 
传输 技术 的 性 能 也 进行 了 评估 : 纯 传 输 、 仅 仅 自 适应 FEC (不 包括 交错 技术 ) 、 自 
适应 交错 技术 (不 包括 FEC), FIR 和 FIRO。 总 体 结果 列 于 表 21.1 中 。 

不 管 是 PLR 还 是 PSNR 的 结果 ，FIR 算法 优 于 普通 的 传输 、 在 分 离 中 使 用 了 自 
适应 技术 的 FEC 和 交错 技术 。 通 过 依靠 交错 技术 ，FIR 在 减少 应 用 级 别 的 PLR 
( -0.62% ) 方面 优 于 自 适 应 FEC 技术 。 错 误 脉 冲 串 在 多 个 FEC 块 之 间 被 分 割 ， 
从 而 使 FEC 更 加 有 效 。 


表 21.1 纯 传输 、 自 适应 FEC、 自 适应 交错 、FIR 和 FIRO 的 性 能 比较 














传输 算法 PLR (96) [A] PSNR/dB [A] 额外 值 (96) 
纯 传 输 9.98[ ] 37.88 [] 0. 00 
自 适应 FEC 8.94 [ -1.04] 3.10 [ +0. 22] 14.34 
自 适应 交错 技术 10.03 [ +0.05] 38.64 [ +0.76] 0.00 
FIR 8.32 [ -1.66] 38.83 [ 40.95] 14. 34 
FIRO 6.18 [ -3.80] 39.41 [ +1.53] 11.51 


在 感知 质量 方面 ， 即 使 其 PLR 的 性 能 更 糟糕 ， 自 适应 交错 技术 的 执行 也 优 于 
自 适应 FEC 技术 ， 这 是 因为 视频 解码 器 的 错误 隐藏 算法 恢复 单个 数据 包 丢 包 比 恢 
复 突 发 性 丢 包 更 容易 。 

在 PLR 和 PSNR 方面 ，FIRO 算法 相对 于 无 优化 的 版 本 (FIR). 表现 出 了 更 好 
的 性 能 。 可 变 RTCP 两 次 到 达 间 隔 时 间 的 使 用 ， 保 证 了 能 更 有 效 地 适应 信道 条 件 ， 
这 将 导致 在 PLR 方面 降低 约 2% ， 以 及 在 FIR 算法 上 增益 约 0.5dB。 此 外 ， 与 一 个 
纯 传 输 相 比 ，FIRO 方法 大 幅 减 少 了 额外 的 传输 开销 ， 为 11. 51% ， 低 于 FIR 算法 
的 14.34% 。 
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21.6 小 结 








本 章 讨论 自 适应 通信 技术 的 实施 ， 由 在 在 车 辆 间 通 信和 背景 下 ， 通 过 结合 FEC 
技术 和 交错 技术 ， 来 实现 多 媒体 流 的 主动 保护 。 提 出 了 自 适 应 技术 、FIR 及 其 优化 
的 版 本 ，FIRO 用 来 解决 针对 V2V 通信 的 丢 包 容忍 的 信息 流 进行 实时 传输 的 问题 。 
这 两 种 技术 基于 两 个 著名 数据 包 级 的 差错 复原 技术 和 定期 接收 端 反 馈 技术 。FIR 借 
助 于 周期 接收 端 产生 ， 以 固定 的 两 次 到 达 间 隔 频 次 发 送 的 报告 ， 来 动态 更 新 FEC 
和 交错 参数 ， 从 而 改善 了 网 络 层 和 应 用 层 的 通信 质量 。FIRO 是 FIR 技术 的 一 个 优 
化 版 本 ， 其 中 接收 报告 两 次 到 达 时 间 间 隔 的 频率 是 动态 更 新 的 ， 从 而 提高 了 PLR 
和 PSNR 方面 的 性 能 。 在 其 优化 的 版 本 中 ， 所 采用 的 FEC 和 交错 适应 技术 ， 保 证 
T PSNR 超过 1.5 dB 的 增益 ， 而 其 总 开销 约 为 12% 。 

致谢 ， 本章 的 部 分 研究 由 Regione Piemonte 通过 VICSUM 项 目 支 持 。 
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第 22 7 Matisse: 模拟 交通 安全 
情境 的 大 型 多 智能 体系 统 


Rym Zalila- Wenkstern, Travis L. Steel, Ovidiu Daescu, 
John H. L. Hansen 和 Pinar Boyraz 


摘要 : 在 这 项 研究 中 ， 我 们 讨论 了 MATISSE 高 层 体 系 结构 、 模 拟 交 通 安 全 和 
拥堵 情况 的 一 个 大 型 的 多 智能 体系 统 。MATISSE 包括 3 个 主要 部 分 组 成 : 智能 体 
一 环境 系统 (AES) ， 将 环境 模拟 成 实例 ， 建 模 成 一 个 图 形 ; 数据 管理 系统 存储 和 
处 理由 AES 收集 到 的 信息 ; 可 视 化 框架 提供 模拟 实体 的 二 维 、 三 维 表示 。 

关键 词 : 多 智能 体系 ; 仿真 ;安全 ; 交通 管理 


22.1 简介 


交通 拥堵 的 根本 原因 很 早 就 被 理解 ， 几 个 策略 已 被 定义 来 解决 这 个 问题 
[ Dot07 ] 。 被 称 为 智能 交通 系统 (ITS) 的 交通 运输 技术 已 被 视 为 可 能 的 解决 方 
dU. 在 本 章 中 ， 我 们 讨论 的 SoteraC ， 是 多 层次 的 、 综 合 性 的 加 强 安全 和 减少 拥 
塞 的 交通 基础 设施 ， 而 MATISSE 则 是 量 身 定制 的 、 大 型 的 、 基 于 多 智能 体 的 仿真 
系统 ， 旨 在 支持 基础 设施 。 

一 些 先进 的 交通 仿真 工具 已 经 在 过 去 十 年 中 实施 (Bla, CORSIM, CONT- 
RAM'*! 、CORFLO' 和 PARAMICS'1)。 这 些 工具 都 是 基于 传统 的 自 上 而 下 的 交通 
问题 ， 并 且 制 作 模型 都 是 刚性 的 和 理想 的 。 在 我 们 的 工作 中 ， 着 手 处 理 自 上 而 下 交 
通 问题 的 同时 ， 也 将 交通 系统 作为 一 套 大 的 自治 实体 间 存 在 相互 作用 的 小 系统 来 考 
虑 。 全 局 系统 的 行为 从 个 别 实 体 的 行为 和 交互 中 显现 出 来 。 本 章 其 余部 分 组 织 如 
F: 22.2 节 ， 我 们 简要 概述 Soteria; 7622.3 节 ， 我 们 描述 了 MATISSE 的 高 层 体系 
结构 ; 在 22.4 节 中 ,我 们 讨论 了 模型 执行 的 案例 研究 。 















































22.2 超级 基础 设施 Soteria 概述 


Soteria 是 一 种 新 型 的 超 基 础 设施 ， 为 了 提高 安全 性 和 减少 道路 与 公路 的 交通 








加 “在 希腊 神话 中 ,Soteria 代表 安全 、 保 护 和 拯救 的 女神 。 
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堵塞 情况 。 这 种 基础 设施 的 目的 是 ， 执 行 在 微观 和 宏观 层面 的 所 有 利益 相关 者 之 间 
的 沟通 、 互 动 和 协作 。 
我 们 所 提 到 的 超 基础 设施 是 基于 两 个 基本 概念 : 
e 为 了 有 效 地 管理 交通 环境 ， 有 必要 将 物理 空间 进行 分 割 成 较 小 的 定义 区 域 
称 为 单元 。 
e 每 个 单元 分 配 一 个 物理 实体 ， 称 为 控制 器 。 一 个 单元 控制 器 负责 中 自主 
管理 和 控制 部 分 物理 环境 ( 即 单元 ) 包括 车 辆 和 交通 信号 灯 ; @) 通 知 其 他 控制 器 
可 能 会 影响 到 他 们 的 单元 变化 。 
如 图 22. 1 所 示 ， 我 们 提出 了 由 3 个 组 件 组 成 的 超 基础 设施 : 
e 单元 控制 右 基 础 设施 由 单元 控制 器 配备 了 互动 装置 。 这 一 基础 设施 的 目的 
是 保持 汽车 基础 设施 和 交通 流 基础 设施 相对 于 交通 和 安全 信息 而 言 一 直 是 最 新 的 。 
e 环境 感知 智能 (CAD, ， 汽 车 基础 设施 是 由 装备 了 一 系列 设备 构成 的 ， 使 它 
们 能 够 : 忆 监 测 驾 驶 员 的 行为 ， 以 防止 可 能 发 生意 外 ; @ 与 其 他 车 辆 沟通 ; O5 
元 控制 器 相互 作用 以 获得 实时 的 交通 信息 等 。 
e 交通 的 流量 基础 设施 包括 3 种 类 型 的 固定 交通 设备 : 交通 信号 灯 、 交 通 采 
集 设 备 和 继电器 单元 。 这 一 基础 设施 的 目的 是 ， 通 过 提供 物理 性 的 交通 基础 设施 信 
息 和 拥塞 状况 ， 来 提高 安全 性 以 及 改善 道路 和 高 速 公 路 上 的 交通 流 。 





单元 控制 的 基础 设施 





CAI 汽 车 基础 设施 e 交通 流 基 础 设施 


图 22.1 超级 基础 设施 
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22.3 Matisse: Soteria 的 仿真 平台 


TE 40 22.1 节 所 提 到 的 ，MATISSE (以 交通 安全 仿真 系统 为 基础 的 多 智能 体系 
统 ) 是 “ 量 身 定制 ”的 ， 用 来 指定 为 Soteria 执行 仿真 模型 的 模拟 框架 2 。 更 确切 
地 说 ， 它 允许 在 名 义 的 宏观 层面 上 和 假设 条 件 下 的 各 种 交通 安全 改善 和 拥塞 减少 的 
情况 进行 模拟 。 

Matisse 的 虚拟 世界 ， 由 大 量 的 智能 体 和 虚拟 环境 组 成 。 智 能 体 的 类 型 可 以 是 
车 辆 、 交 通 灯 或 信息 的 收集 装置 等 ， 可 以 是 移动 的 也 可 以 是 固定 的 。Matisse 环境 
是 一 个 双向 的 图 形 〈G) ， 其 中 的 节点 表示 位 置 ， 而 边界 表示 不 同 地 点 之 间 的 路 径 。 
智能 体 使 用 由 G 指定 的 映射 在 环境 中 移动 。 由 于 动态 的 和 分 布 式 环境 特性 以 及 由 
于 智能 体 与 环境 之 间 大 量 的 信息 交换 ， 将 空间 分 割 成 整个 网 络 中 的 小 单元 是 十 分 必 
要 的 。 单 元 信息 由 个 别 单元 控制 器 管理 。 

MATISSE 的 体系 结构 是 一 个 扩展 的 DIVAS KAO!) ， 它 包括 3 个 主要 组 成 部 分 
(参照 图 22. 3 ) : 

e 智能 体 环境 系统 (AES): 创建 仿真 实例 。 

e 数据 管理 系统 (DMS) : 存储 和 处 理 AES 收集 的 信息 。 

e 可 视 化 框架 : 接收 来 自 DMS 的 信息 用 来 创建 二 维和 三 维 的 模拟 图 像 。 

MATISSE 的 主要 组 成 部 分 ， 即 智能 体 环境 系统 ， 由 3 个 部 分 组 成 : 

e 环境 感知 的 智能 车 (CAD 平台 : 创建 和 管理 代表 车 辆 的 移动 智能 体 。 

e 交通 设备 平台 : 创建 和 管理 代表 交通 信号 灯 和 信息 采集 设备 的 固定 智能 体 。 

e 环境 平台 : 创建 和 管理 如 图 22. 2 所 示 的 环境 。 

这 些 平台 通过 3 个 邮件 传输 服务 进行 彼此 互动 。 




















22.2 MATISSE 的 单元 结构 





O 术语 “框架 ” 指 的 是 一 个 系统 的 系统 。 
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22.3.1 智能 体 体系 结构 


在 MATISSE 中 ， 每 个 智能 体 程 序 ， 不 管 其 类 型 ， 都 有 一 个 由 交互 模块 、 信 息 
模块 、 一 个 任务 模块 和 一 个 规划 和 控制 模块 组 成 的 内 部 结构 〈 见 图 22.4) 。 每 个 特 
定 智能 体 的 概念 ， 如 目标 、 任 务 和 约束 等 定义 如 下 : 

。 交互 模块 。 智 能 体能 够 通过 环境 感知 模块 来 感知 环境 ， 它 与 其 他 智能 体 通 
过 智能 体 通 信 模 块 相 联 系 。 
























可 视 化 框架 


数据 管理 系统 


MATISSE 智 能 体 环境 系统 
信息 传输 服务 
CAI 汽 车 平台 环境 平台 


CAI 汽 车 智 
能 管理 系统 


车 辆 n 


"a 控制 器 与 控制 器 问 设备 与 设备 间 的 
车 间 信 息 传输 服务 的 信息 传输 服务 信息 传输 服务 
控制 器 与 车 辆 间 的 信息 传输 服务 控制 器 与 收集 装置 间 的 信息 传输 服务 


车 辆 与 收集 装置 间 的 信息 传输 服务 


[d 22.3 MATISSE 高 层 体 系 结构 


。 信息 模块 。 它 划分 为 外 部 信息 模块 (EIM) 和 内 部 信息 模块 (IM) ， 充 当 
智能 体 的 记忆 体 部 分 ， 是 专门 为 维护 智能 体 的 外 部 实体 。 它 是 由 环境 模型 和 认 知 模 
型 组 成 的 。 根 据 智能 体感 知 其 环境 来 维持 环境 模型 ， 根 据 智能 体 与 智能 体 的 合作 来 
维持 认 知 模型 。 

它 充当 智能 体 的 存储 器 部 分 ， 是 专门 用 来 保持 智能 体 对 其 本 身 信 息 了 解 的 。 此 
模块 包括 智能 体 的 自我 模型 和 约束 模型 。 自 我 模型 是 维护 智能 体 的 基本 属性 ， 而 约 
束 模 型 维护 智能 体 的 物理 属性 和 协作 的 限制 。 

e 任务 模块 。 此 模块 管理 的 是 智能 体 在 它 被 部 署 的 区 域内 可 以 执行 的 单元 任 
务 规 范 。MATISSE 人 允许 用 户 定义 这 些 任务 或 分 配 它们 到 预定 义 的 任务 库 中 。 

e 规划 和 控制 模块 。 这 作为 智能 体 的 大 脑 ， 它 使 用 由 智能 体 模 块 所 提供 的 信 
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智能 体 
相互 作用 信息 


外 部 信息 模块 
环境 感知 模块 智能 体 通信 模块 
| 


规划 和 控制 


约束 模式 


PCM 


任务 


图 22.4 智能 体 体系 结构 
息 来 规划 和 执行 任务 ， 并 作出 决定 。 





22.4 单元 控制 器 架构 





一 个 单元 控制 器 负责 管理 和 控制 一 部 分 环境 。 它 会 通知 其 本 地 智能 体 ( 例 如， 
车 辆 和 交通 灯 ) 其 周围 环境 的 变化 ， 并 通知 其 邻近 智能 体 可 能 会 影响 到 它们 的 任 
何 变化 。 这 些 特点 揭示 了 单元 控制 器 和 智能 体 体系 结构 之 间 很 强 的 相关 性 。 因 此 ， 
很 清楚 ， 单 元 控制 器 可 以 建 模 为 一 个 简单 的 智能 体 ， 如 图 22.5 所 示 。 与 智能 体 体 
系 结构 类 似 ， 一 个 单元 控制 器 也 主要 由 4 个 组 件 ， 即 交互 模块 、 信 息 模 块 、 一 个 任 
务 模块 以 及 规划 和 控制 模块 组 成 。 

e 交互 模块 。 这 些 模 块 处 理 单元 控制 器 间 的 异步 通信 ， 也 处 理 单元 控制 器 和 
智能 体 之 间 的 同步 通信 。 

。 信息 模块 。 这 些 模块 包含 一 个 数据 控制 器 所 需要 的 功能 ， 其 组 成 如 下 : 

> 智能 体 模 型 。 此 模型 包含 有 关 单 元 体 环境 范围 内 部 的 智能 体 ， 如 它们 的 标识 
符 和 位 置 的 区 域 等 最 低 限 度 的 信息 。 

> 链接 的 单元 模型 。 此 模型 与 相 邻 单元 保持 一 个 列表 ， 该 列表 中 的 相 邻 单元 的 
图 标 均 与 该 模型 的 图 标 有 共享 路 径 。 所 有 分 享 路 径 中 的 单元 体 标识 符 和 路 径 标 识 符 
等 信息 都 包含 在 该 模型 中 。 

> 图 表 模 型 。 此 模型 包含 关于 单元 体内 的 各 个 节点 和 边界 信息 。 

> 自我 模型 。 此 模型 包含 有 关 的 单元 ， 如 它 的 标识 符 和 区 域 边 界 的 本 质 特征 。 

» 实物 模型 。 该 模型 包括 位 于 单元 体内 区 域 的 物理 实体 ， 但 不 是 实际 的 智能 体 
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单元 体 
相互 作用 


环境 智能 体 通信 模块 





环境 与 环境 
间 通 信 模 块 
规划 和 控制 模块 
自我 模型 
任务 实物 模型 


图 22.5 单元 体 控制 器 架构 





的 详细 信息 。 
22.5 案例 研究 : 模型 执行 


在 本 节 中 ,我们 将 考虑 的 事故 情景 描绘 于 图 22. 6 中 。 事 故 发 生 在 单元 12 (所 
示 的 “X”) ， 和 车载 避 撞 系统 通知 单元 控制 带 C12 有 关 事 故 。 在 此 情景 下 ，C12 立即 
执行 以 下 步骤: 

1) 将 所 发 生 的 事故 通知 给 在 该 单元 内 所 有 的 车 辆 。C12 单元 控制 器 通过 在 单 
元 控制 器 中 的 车 辆 MTS， 对 单元 内 所 有 车 辆 的 智能 体 模型 中 所 存储 的 最 新 智能 体 
进行 广播 事故 通报 。 

2) 通知 相 邻 单元 控制 带 所 发 生 的 事故 。C12 单元 控制 融通 过 在 小 区 控制 器 中 
的 单元 控制 器 一 单元 控制 器 MTS 向 存储 在 链接 单元 格 模型 中 的 相 邻 单元 体 发 送 事 
故 通 知 。 

3) 与 更 高 级 别 的 控制 器 通信 ， 以 获得 在 车 辆 间 传 递 更 广泛 的 交通 信息 。 层 次 
结构 的 单元 控制 顺 ， 可 实现 较 低 的 单元 控制 需 与 单元 控制 器 间 在 更 广泛 的 范围 内 进 
































行 信息 交换 。 
在 单元 格 中 的 所 有 车 辆 都 应 使 用 更 广泛 的 交通 信息 ， 以 确定 最 佳 的 出 口 路 线 
(在 辅路 上 以 免 造成 拥塞 ) 。 


与 交通 信号 灯 的 沟通 能 优化 交通 流量 (例如 ,不 准 接近 车 辆 进入 该 单元 )， 并 
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图 22.6 事故 情况 下 





可 以 决定 交通 灯 是 否 变 成 绿色 以 便 让 交通 更 流畅 。 
相 邻 单元 控制 器 在 接收 事故 通知 后 ， 会 以 类 似 C12 的 方式 通知 车 辆 、 交 通 灯 
控制 器 和 相 邻 单元 控制 器 该 事故 的 发 生 。 


22.6 小 结 


在 本 章 中 ， 我 们 讨论 了 高 层 体系 结构 MATISSE ， 一 个 大 型 的 用 于 行车 安全 的 
情况 下 执行 和 规范 的 多 智能 体系 统 。 我 们 的 方法 使 用 自 底 向 上 的 方法 ， 在 该 方法 中 
以 全 局 系统 行为 为 结果 ， 与 个 体 微观 层面 的 行为 相 结合 的 交通 仿真 问题 。MATISSE 
的 设计 基于 良好 的 软件 工程 原则 ( 即 分 离 问题 、 信 息 隐 藏 和 模块 化 ) 。 这 将 是 一 个 
可 扩展 的 、 可 重复 使 用 的 架构 。 
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